Le défi du projet Arcadie face à la nouvelle Assemblée nationale
CSVmania
Le 13 juillet 2017 à 15h02
8 min
Internet
Internet
Monté il y a plus d'un an, le projet Arcadie a dû reconstruire rapidement sa base de données de députés, arrivés en masse fin juin. Un travail de compilation renouvelé, qui doit s'accommoder des dernières évolutions politiques, alors que le site cherche encore un modèle économique pérenne.
Le 21 juin s'est ouverte la XVe législature de la cinquième République, marquée par un fort renouvellement des députés, pour partie nouveaux en politique. Autant de travail pour le projet Arcadie, destiné à compiler et vérifier toutes les informations liées aux parlementaires. Lancé fin 2015 par Tris Acatrinei, ancienne assistante parlementaire, il cherche encore à pérenniser son modèle économique et à s'ouvrir aux partis politiques au sens large (voir notre entretien).
L'intérêt principal du site est de retrouver facilement des données fiables, avec des recherches croisées sur une multitude de critères, dont le parti, les mandats, le rattachement financier ou encore le secteur d'activité.
C'est un travail de fourmi auquel se livre le site, qui croise de nombreuses sources, dont de nouvelles apportées par les partis eux-mêmes. D'autres s'y sont aussi attelés, comme Les Décodeurs du Monde (qui ont détaillé leur méthodologie) pour tirer un premier portrait de cette nouvelle Assemblée, où le parti présidentiel La République En Marche (LREM) détient la majorité absolue.
Des données à purger et retrouver, professions incluses
Contactée le 26 juin, une semaine après l'entrée en fonction des nouveaux députés, Tris Acatrinei avait déjà abattu une bonne partie du travail prévu, l'automatisation aidant. L'année d'élection, de naissance, les mandats, les circonscriptions et les informations liées, les plus rapides à obtenir, étaient déjà traitées. D'autres points, comme l'adresse parlementaire ou les groupes parlementaires, posent peu de soucis.
Sur 577 députés, quelques surprises existent tout de même, sur des choses simples. « La civilité, le nom, prénom, l'âge... Entre les listes du ministère de l'Intérieur et le site de l'Assemblée, ils n'ont pas le même nom de famille, le même prénom, voire les deux » s'étonne Tris Acatrinei.
D'autres informations ont été purgées, comme les commissions parlementaires, les organismes extra-parlementaires et les collaborateurs. « Il n'est pas du tout dit que les mêmes reviennent. À priori si, mais on ne sait jamais » commente la fondatrice du projet. Viennent à la fin les groupes parlementaires et les GDI (groupes d'intérêt institutionnels), au nombre et à la composition parfois complexes à déterminer. Les informations venant de l'Assemblée ou de sources publiques sont traitées en deux semaines, affirme notre interlocutrice.
En fait, le gros morceau concerne les professions des parlementaires, incomplètes. « Le questionnaire du ministère de l'Intérieur sur le sujet n'est pas le reflet de la réalité. Par exemple, Aurore Bergé était directrice conseil dans une entreprise de communication. Elle est indiquée comme cadre du secteur privé. Le premier est quand même beaucoup plus parlant. Quand je te dis directeur général d'administration, c'est plus parlant que fonctionnaire territorial » détaille notre interlocutrice.
Quelques métiers sont aussi particuliers comme les avocats : « Pour eux, je dois gérer le barreau, donc voir du côté du répertoire du Conseil national des barreaux (CNB) pour savoir qui est dans quel barreau, ceux en activité ou non ». Une activité laissée à la fin du passage en revue des nouveaux parlementaires, même si avocats et médecins seraient assez faciles à trier.
Conférence à Pas Sage En Seine 2017 sur la petite corruption du quotidien
Des différences entre partis
Côté partis, l'innovation viendrait d'En Marche, qui propose un site facilement parcourable, avec des fichiers dédiés à l'exploitation automatique des données. « Je suis vraiment aidée par En Marche, qui a mis en place des API. J'ai mis deux heures à chercher les informations avant qu'un abonné Twitter ne me le signale... Pas de commentaire » note-t-elle. Sur le sous-site dédié aux législatives, la plupart des députés disposent en outre d'une description avec quelques informations utiles.
Surtout, les parlementaires LREM, parti « start-up », seraient bien plus adroits sur LinkedIn que leurs collègues. « Énormément ont un profil LinkedIn. Autant tu peux raconter des bêtises ailleurs, autant ça se voit rapidement sur un tel profil. C'est non seulement plus répandu [chez LREM], mais ils ont compris à quoi ça servait », à savoir signaler sa carrière professionnelle et non ses mandats, comme des députés LR. « Soit la politique est devenue un métier, auquel cas il y a un malaise, soit tu n'as rien compris à LinkedIn et c'est aussi un problème. »
Du côté du PS et de LR, qui ont vu le nombre de leurs députés fondre, trouver le rôle de chaque parlementaire (voire son affiliation) serait plus compliqué, avec des organigrammes ayant disparu des sites officiels. « Il doit me rester une soixantaine de parlementaires pour lesquels il me reste à déterminer la couleur politique et le mandat interne » nous affirmait la responsable du projet Arcadie une semaine après l'entrée des députés.
Des données qui ont parfois mis du temps à venir
Toutes ces informations, ce sont de nombreuses sources avec lesquelles jongler. Le gros du travail a commencé après le deuxième tour, une fois le verdict des urnes connu, avec pour base des fichiers publics. « Je ne me voyais pas m'attaquer à un fichier de 5 000 noms, surtout pour des gens dont je savais qu'ils feraient 1 % dans le meilleur des cas » commente Tris Acatrinei, qui s'est résolue à trier elle-même tous ces noms. La raison ? Le fichier du ministère de l'Intérieur a mis au moins deux jours à venir.
Elle a donc conçu une base de travail locale avant les résultats, puis trié et exporté les données vers le site une fois les noms tombés. Une liste des parlementaires de la XVe législature sur Wikipédia a aidé au tri.
Ses outils sont classiques : Excel et LibreOffice (notamment pour le traitement des CSV) ainsi que Xenu, un logiciel de scraping de liens de sites avec export en fichier tabulé. De quoi grandement simplifier la récupération de la liste des comptes sur les réseaux sociaux et des sites web.
« J'ai toujours été un peu fainéante et il me manque quelques bases techniques. Ça ne sert à rien de faire son propre script en Python juste pour montrer son talent. La plupart du temps, les outils existants fonctionnent très bien. Il faut juste apprendre à s'en servir ! » estime-t-elle.
Cela pousse aussi à l'astuce : se fier à l'identifiant numéroté des députés sur le site de l'Assemblée pour déterminer leur ancienneté, ou encore passer par un fichier XML de l'institution pour obtenir les adresses email (qui ont changé de format pour partie) et l'historique parlementaire. « Maintenant j'ai les suppléants, que je ne mettais pas avant. C'est intéressant, parce que tu vois les anciens députés. Une trentaine ne se sont pas présentés sous leur nom, mais comme suppléant », notamment côté LR, constate le projet Arcadie.
Nouveaux députés, nouveaux usages ?
L'objectif de cette législature est d'explorer en profondeur les professions des députés. Des informations pas toujours fiables, donc, qui sont pour partie entre les mains de la Haute Autorité de la transparence de la vie publique (HATVP), connue pour parfois mettre plusieurs mois à publier des documents en sa possession.
Tris attend encore pour contacter les députés, pour récupérer les dernières informations manquantes. Il s'agit aussi d'éviter d'être utilisée comme simple outil politique. « Une chargée de communication d'un nouveau député, Modem, m'ennuie en voulant me commander sur l'adresse email à mettre. La plupart des politiques, les projets type civic tech les intéressent quand cela peut servir leur communication. C'est ce qui rend certains projets plus visibles que d'autres » nous déclare-t-elle, refusant ce type de demande.
Cette législature serait d'ailleurs plus marquée par la communication. « Un problème que je vois arriver est que nos députés vont arriver avec des chargés de communication, pas de vrais assistants parlementaires, connaissant l'Assemblée et son fonctionnement », ce qui mènerait déjà à des erreurs. « J'ai peur qu'on ait le même souci qu'avec le PS et les Verts sous la précédente législature : des gens qui font surtout de la communication plutôt que du travail de fond. »
Un avenir encore incertain
Au quotidien, Tris Acatrinei gère donc les modifications de fiches (avec un repérage automatisé au maximum), suit l'activité parlementaire sur Twitter et son blog et réfléchit à la suite. Depuis un an, le site compte les eurodéputés français dans ses listes et se prépare à l'arrivée des prochains sénateurs, en septembre.
Surtout, le site a changé de modèle économique : d'abord payant puis sur publicité, il vit désormais des dons des lecteurs, avec un objectif mensuel de 2 000 euros pour le moment. La progression est rapide mais l'objectif n'est pas atteint : 180 euros en janvier, 1 080 euros en février, 1 143 euros en mars, 1 300 euros en avril, 1 720 euros en mai et 1 647 en juin. Un montant déjà presque atteint à la mi-juillet.
Pour le mois de juin, les dons se sont montés à 1620 € :) Merci à vous <3 Remise à (presque) zéro du compteur. https://t.co/6o8XisdtNV
— Projet Arcadie (@Projet_Arcadie) 1 juillet 2017
« Tous les autres modèles économiques ont été explorés et n'ont pas fonctionné. J'ai 7 000 abonnés sur Twitter. Si chacun faisait un don mensuel d'un euro, le budget serait bouclé et j'aurais les moyens de concevoir la petite sœur sur les partis politiques » estime Acatrinei. Il s'agirait d'une base de données, contenant tous les partis politiques figurant dans le rapport des comptes de campagne et de la vie politique, encore avec des informations détaillées. Avant d'ajouter de nouvelles informations et de lancer des projets annexes, elle attend que l'objectif de dons soit rempli trois mois de suite.
« Si ce n'est plus possible financièrement pour moi de poursuivre, on arrête en passant le site en archive. On est dans une phase de césure où les gens ne comprennent pas que le web doit s'acheter aussi » déclare Tris Acatrinei, qui prépare déjà les archives de la précédente législature. Une autre piste, par la collaboration ponctuelle avec des médias, doit aussi aider à financer le projet, qui gagne en visibilité de mois en mois.
Le défi du projet Arcadie face à la nouvelle Assemblée nationale
-
Des données à purger et retrouver, professions incluses
-
Des différences entre partis
-
Des données qui ont parfois mis du temps à venir
-
Nouveaux députés, nouveaux usages ?
-
Un avenir encore incertain
Commentaires (27)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 13/07/2017 à 15h19
" /> Quel boulot de dingue. Bravo.
Le 13/07/2017 à 15h20
« La civilité, le nom, prénom, l’âge… Entre les listes du
ministère de l’Intérieur et le site de l’Assemblée, ils n’ont pas le
même nom de famille, le même prénom, voire les deux »
Vu que le Conseil Constitutionnel accepte que des candidats se présentent sous un patronyme tronqué, c’est normal qu’il y ait de tels écarts, et ce n’est pas de l’erreur humaine là…
« Maintenant j’ai les suppléants, que je ne mettais pas avant. C’est
intéressant, parce que tu vois les anciens députés. Une trentaine ne se
sont pas présentés sous leur nom, mais comme suppléant », notamment côté LR, constate le projet Arcadie.
Et en frande majorité pour cause de cumul de mandat : on est déjà maire (ou autre), on ne peut pas être député, tant pis on présente une marionnette qui votera comme on lui a dit, et on garde l’influence et le réseau, ça peut toujours servir " />
le site a changé de modèle économique : d’abord payant puis à la publicité, il vit désormais des dons des lecteurs
Y’a pas un site de presse qui a récemment décidé de reverser une part de ses abonnements à des projets comme celui-ci ? " />
Le 13/07/2017 à 15h39
Elle ne met pas en cause une erreur humaine, elle s’étonne juste qu’il puisse y avoir des différences les listes du ministère de l’Intérieur et le site de l’Assemblée.
Et c’est vrai que c’est étonnant, pourquoi ne pas se baser sur l’état civil indiqué sur la carte nationale d’identité? :/
Pas ce genre de projet non. NXI va soutenir les projets qui protègent les données et la vies privées.
Le projet Arcadie n’est pas éligible :)
Le 13/07/2017 à 15h50
C’est quoi l’intérêt du projet par rapport à nos députés ?
Le 13/07/2017 à 16h00
Bonne question.
Après avoir parcouru les fiches d’un même député, je dirais que nosdeputes.fr a pour objectif de suivre l’activité des députés (présence/vote) tandis que ce projet a pour objectif de savoir qui ils sont, pourquoi ils sont là, comment ils en sont arrivé la. (profession/centre d’intérêt)
Le 13/07/2017 à 16h15
Sans parler des sénateurs, des suppléants, les collabos et les infos (très) précieuses sur le fonctionnement des INstitutions. Beaucoup plus complet que nosdeputes. " />
Le 13/07/2017 à 16h25
D’ou l’intérêt de la suivre sur Twitter (et Mastodon) et de l’aider financièrement. Quelques euros par parsonne ce n’est pas grand chose, mais cela pérénise ce site.
Le 13/07/2017 à 16h30
Le 13/07/2017 à 16h55
On dirait que les députés aime bien étalé leurs vie, si elle tester sur moi sans connaître mes différents pseudos, elle trouverai pas grand chose (A part si elle connait des personnes aux différents services de l’État)." />
Le 13/07/2017 à 17h00
Perso, dès que j’arrive à signer mon arrété de passage en catB (mal barré, ils l’ont paumé ces cons), je passerai en donateur régulier. J’aurai les finances pour à priori.
Le 13/07/2017 à 17h27
Anéfé, une initiative et un travail à soutenir.
Pour ce mois ci je donne pour vous tous :) 20€
Le 13/07/2017 à 18h05
Le 13/07/2017 à 18h21
Apparemment je ne suis pas le seul, quand j’ai donné les dons étaient à 1400, là 1600.
NXi joue son rôle de donneur de visibilité aux projets d’utilités publiques.
Manquerai plus que le site propose une API en REST pour lire les données :) #BigData
Le 14/07/2017 à 10h36
Le 14/07/2017 à 11h15
Je vais coder ca ce WE pour m’amuser.
Un p’tit wrapper qui récupère la page HTML et explose le tout en REST (j’ai l’impression que la donnée n’est pas stockée de manière relationnelle pure mais plutôt dans des articles). Si j’ai quelque chose de pas dégueu je balancerai ca sur github
Le 14/07/2017 à 11h38
Ça a quand même l’air d’être une sacrée chieuse, la miss. Elle fait peur, dans la vidéo.
Le 14/07/2017 à 19h33
Je veux bien que tu mettes le lien ici quand t’as quelque chose, j’ai approché Tris pour discuter d’une mise à disposition de dumps : Twitter
Le 16/07/2017 à 13h31
Bon, désolé pour les faux espoirs, mais on m’a tendu un piege ce WE (#factorio), peut être cet été pendant mes congés. Je te ferai un tweet si j’ai quelque chose (mais c’est plus pour le coté technique que pour le coté exploitable " />)
Le 17/07/2017 à 06h48
Autant je comprends bien la volonté et l’objectif. Autant j’ai l’impression que c’est plus du boulot de reprise et groupage d’informations que tout à chacun peu faire plus qu’une véritable investigation.
Après c’est du beau boulot :)
Le 17/07/2017 à 07h55
Préviens la quand même avant de lancer ton projet.
Le 17/07/2017 à 07h57
Je te conseille de suivre son comtpe Twitter car elle expolique pas mal de choses. Et est capable de sortir pas mal d’analyses aussi. Crois moi, j’en apprends pas mal sur nos institutions grâce à elle.
Le 17/07/2017 à 08h09
C’est plus du POC pour me décrasser qu’un projet (principe hackathon). (Je traine au quotiden sur des languages trop haut niveau, il me faut redescendre de temps en temps sur des bases classiques #php)
S’il y a un résultat probant je notifierai sans faute (le service ne sera hébergé que le temps du POC, il n’a pas but initial de survivre dans le temps)
D’ailleurs faudra que je qualifie la différence de travail/résultat avec (Exemple pris au pif)
(ProjetArcadie)https://projetarcadie.com/content/damien-abad
(NosDeputes)https://www.nosdeputes.fr/damien-abad
(LeMonde)http://www.lemonde.fr/politique/article/2017/06/28/qui-est-mon-depute-notre-mote…
-donnée dipo en JSON en licence-http://s1.lemde.fr/assets-redaction/pol/quisontvosdeputes/js/donnees.js
Edit: 2165€ à 10h. Effet NXi ou il y un autre facteur de visibilité?
@NXI, vous menez l’enquête? :)
Le 17/07/2017 à 12h23
d’un autre côté faut ce qu’il faut pour obtenir les infos. ^^
sa conf sur la petite corruption du quotidien est édifiante.
Le 17/07/2017 à 14h27
Le 17/07/2017 à 15h22
Ce n’est pas parce que tu as travaillé dans “un système” que tu n’as pas pour autant légitimité à le critiquer.
Par exemple, je critique dans mes échanges l’optimisation fiscale, jusqu’au jours où je me suis rendu compte que le flux que j’étais en train de développer c’était cela même …
Le 17/07/2017 à 19h07
Ayé, c’est codé à la rache (php7) norme ISO-1664 et tout et tout
GitHub(j’ai pas publié sur mon serveur, j’ai juste test en local sur un wamp)
C’est plus de la page php que du vrais service REST
Il faudrait encapsuler en microservice REST dans Guzzle GitHubEnsuite clairement écrire le swagger pour la dochttps://swagger.io/swagger-editor/
Puis couvrir le service (auth, securité, audit) derriere un Konghttps://getkong.org/
Pour le contenu c’est la galère car la page HTML n’est pas idéalement structurée donc j’ai des requêtes xpath dégeulasses qui trainent.
Le 18/07/2017 à 15h30
Comme j’aime bien parler tout seul :
Je vais surement m’amuser pendant mes vacances pour me mettre à niveau sur l’utilisation de elasticsearch avec ces données (j’ai déjà instancié il y a quelques mois un elasticsearch+kibana mais je n’ai pas encore bossé dessus).
J’utiliserai ma base php pour lancer des refresh de cet elasticsearch (annule et remplace).
Si quelqu’un est intéressé pour faire de la veille en groupe :)