Grand débat : un député réclame la transparence sur les logiciels de traitement des contributions
Qui veut Peu
Le 07 mars 2019 à 11h10
7 min
Droit
Droit
Alors que le gouvernement s’est résolu à publier les contributions issues du « grand débat national » en Open Data, le député Stéphane Peu réclame désormais que le code source des logiciels utilisés pour analyser ces données soit lui aussi ouvert.
Voilà maintenant près d’un mois et demi que les Français peuvent déposer leurs propositions sur le site « grandébat.fr ». Fiscalité, citoyenneté, organisation de l’État, transition écologique... Les thèmes de discussion de manquent pas. Tant est si bien que plus de 360 000 contributions ont été déposées, à quasiment une semaine de la fin de cette grande consultation.
Après une vague de flottement, l’exécutif a accepté le mois dernier de diffuser l’ensemble des données remontant dans le cadre du « grand débat », dans un format compatible avec les standards de l’Open Data : propositions déposées sur Internet ou transmises par voie postale, restitutions de réunions locales, réponses aux questionnaires, cahiers ouverts dans les mairies, etc.
Tous ces éléments ont vocation à être « progressivement et régulièrement mis en ligne sous licence libre ». On en retrouve d’ailleurs certains sur la plateforme du « grand débat » (voir ici) et sur le portail « data.gouv.fr ».
Le gouvernement invité à prendre des « précautions »
Au travers d’une question écrite parue mardi 5 mars au Journal officiel, le député Stéphane Peu a toutefois interpelé le Premier ministre sur « les conditions de transparence de l'analyse » des données collectées lors du « grand débat ». Si l’élu communiste juge « assez compréhensible » que les pouvoirs publics envisagent de traiter ces centaines de milliers de contributions par le biais de programmes informatiques, il prévient néanmoins qu'une telle démarche « devrait conduire à prendre quelques précautions ».
« Confier l'intelligence collective des Françaises et des Français à l'intelligence artificielle des ordinateurs et des logiciels suppose que l'ensemble des citoyennes et citoyens puisse comprendre et apprécier la nature et la forme des traitements que leurs données auront subis, fait valoir le parlementaire. En d'autres termes, puisqu'en informatique, comme en matière de vie démocratique, « le code fait loi », son expression se doit d'être intelligible et transparente. »
Stéphane Peu plaide ainsi pour que le code source des logiciels utilisés pour analyser les contributions du « grand débat » soit ouvert, ce qui permettrait d’en auditer le contenu (et s’assurer par exemple qu’il n’y a pas de biais). L’élu invite en ce sens Édouard Philippe à lui présenter les « garanties » qu’il compte produire « pour que cette indispensable transparence puisse être garantie dans les faits, et que chaque citoyen puisse en vérifier le fonctionnement ».
Une analyse des contributions confiée à une société spécialisée dans le big data
Lors du Conseil des ministres du 13 février dernier, le gouvernement a annoncé que l’institut de sondage OpinionWay avait été retenu pour procéder à l’exploitation « quantitative et qualitative » des contributions déposées sur le site du « grand débat ».
Cette société fait cependant appel à un autre prestataire, Qwam, « pour le traitement des verbatim issus des posts « autres réponses » et des questions ouvertes, qui représentent une masse de données textuelles considérable ».
L’entreprise dispose en effet d’un « outil d’analyse automatique des données textuelles en masse », dénommé Texts analytics. Ce dernier repose sur des technologies de « traitement automatique du langage naturel couplées à des techniques d’intelligence artificielle (apprentissage profond/deep learning) ». D’après Qwam, cette solution logicielle est capable de parcourir de très nombreux textes, mais uniquement « pour en tirer les caractéristiques essentielles (méta-données), des indicateurs clés, des tendances ou des signaux faibles ».
Dans le détail, OpinionWay explique que « les notions citées par les répondants sont relevées, analysées, triées et classées en différentes catégories et sous-catégories » grâce à des « algorithmes puissants ». Chaque verbatim est alors associé à l’une de ces étiquettes, ce qui est censé permettre « une exploitation quantitative des déclarations spontanées des répondants, qui seront ensuite présentées sous forme de pourcentages ».
Le recours à ce type d’outil est toutefois loin de susciter l’unanimité. « Le traitement par mot-clé n’est pas suffisant pour gérer ces textes, au mieux cela peut aider à identifier des thèmes, mais c’est du bluff, on balance ces mots magiques et techniques, mais en réalité, ils auront un mal fou à traiter toutes les contributions, et elles passeront à la trappe », a par exemple fait valoir Fabrice Epelboin, enseignant à Sciences Po Paris, auprès de 20 Minutes.
« L’intelligence artificielle ne peut pas saisir toute la richesse des contributions, car elle va passer à côté du style, de l’humour, ou des contributions analysées comme hors sujet », l’a rejoint une data-scientist citée par nos confrères.
OpnionWay assure néanmoins qu’il y a « systématique[ment] » une « intervention humaine », afin de « contrôler la cohérence des résultats et s’assurer de la pertinence des données produites et de la bonne compréhension du sens des propos des participants au débat ».
Opacité sur le code source du logiciel de consultation
Le gouvernement demandera-t-il pour autant à Qwam de rendre public le code source de son outil Text Analytics ? Rien n’est moins sûr. En dépit des demandes de différentes associations, ni l’exécutif ni les garants du « grand débat » (parmi lesquels figure Isabelle Falque-Pierrotin, l’ancienne présidente de la CNIL) n’ont jugé opportun d’exiger la transparence sur la plateforme qui recueille aujourd’hui les contributions des Français.
Sans logiciel libre, une consultation en ligne ne peut être considéré comme structurellement démocratique.
C'est comme si l'accès au réglement intérieur des Assemblée était impossible. Qui décide l'ordre du jour, comment sont nommés les commissions, etc. #CodeisLaw https://t.co/79Vq6lUaJl— Etienne Gonnu (@etiennegonnu) 17 janvier 2019
Le service presse du « grand débat » nous avait d’ailleurs confirmé le 12 février dernier que le code source de la plateforme gérée par la société Cap collectif ne serait « pas rendu public », « par souci de protection de l’activité du prestataire ». Une pilule qui s’avère d’autant plus difficile à avaler pour certains qu’Emmanuel Macron avait promis que cette consultation serait « encadrée par toutes les garanties de loyauté et de transparence ».
Contactée, la société Qwam n'a souhaité faire aucun commentaire.
En attendant le retour de l’exécutif (qui dispose théoriquement d’un délai de deux mois pour répondre à la question écrite de Stéphane Peu), signalons l’initiative « La grande annotation », qui propose aux volontaires d’analyser par eux-mêmes certaines contributions issues du « grand débat ». Se disant « convaincus que les citoyens peuvent collectivement réaliser une synthèse de ce débat en adoptant une démarche transparente et ouverte », ce collectif a développé une plateforme collaborative destinée à trier, humainement, les contributions des Français.
Le collectif estime que si 5 000 personnes consacraient 5 à 10 minutes par jour à ce projet, toutes les contributions du « grand débat » pourraient être annotées en 20 jours. Le code source de cette plateforme, soutenue notamment par l’association Code for France, est quant à lui ouvert.
Grand débat : un député réclame la transparence sur les logiciels de traitement des contributions
-
Le gouvernement invité à prendre des « précautions »
-
Une analyse des contributions confiée à une société spécialisée dans le big data
-
Opacité sur le code source du logiciel de consultation
Commentaires (37)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 07/03/2019 à 20h18
vu les enjeux, une armée d’humain
on en a été capable il y a plus de 200ans, on peut recommencer en faisant mieux et plus rapidement………et GRATUITEMENT
Le 07/03/2019 à 20h52
Le 07/03/2019 à 21h09
J’ai souvenir d’une interview d’un représentant du prestataire sélectionné qui expliquait le principe de tri appliqué.
Pour résumer, l’outil a pour objectif de faire ressortir les résultats en regroupant de manière macro les réponses exprimées selon l’analyse de mots clés et compagnie.
Ensuite, ce sont des opérateurs humains qui se chargent de finaliser le traitement des données rassemblées par le logiciel.
Ce qui concorde avec les citations de l’article.
Après, d’une expérience personnelle, les outils d’analyse de données de ce genre sont plutôt impressionnants au niveau des résultats. A voir à une échelle aussi élevée.
Le 07/03/2019 à 21h33
Le 08/03/2019 à 06h21
Faut ouvrir le code source de l’humain " />
Le 08/03/2019 à 14h56
Il y a par exemple une question qui demande (grosso modo) : “si vous deviez payer plus d’import, à quel domaine souhaiteriez vous que cet argent soit investi ?”
Imaginons qu’il faille annoter la réponse suivante : “Donner encore plus de thunes aux entreprises et au secteur pharmaceutique… Nan je rigole ! Éducation, solidarité, écologie : c’est la priorité !”.
Un système d’analyse de texte se ferait sûrement avoir et ne relèverait pas l’ironie de la première phrase. Un humain de la Grandeannotation indiquera que cette réponse prône l’affectation d’éventuels impots supplémentaires pour “éducation”, “écologie” et “solidarité”.
Chaque réponse à cette question est ainsi tagguée (enfin, ça avance), de façon à ce que l’on sache quels domaines sont importants pour les répondants à cette question.
Est-ce clair ?
Le 08/03/2019 à 15h14
Le 08/03/2019 à 15h19
J’ai vu l’exemple que tu cites sur le site, mais pas les tags “éducation”, “écologie” et “solidarité”, ni même impôts.
Si le choix de tags est ouvert, c’est-à-dire que tout le monde peut en ajouter, ça risque d’être le bordel.
À la limite, pour les réponses aux question, ça peut marcher, mais pour les propositions libre, ça risque d’être compliqué de se limiter à des tags.
Par exemple, si je propose de : supprimer complètement la TVA qui est un impôt injuste et de compenser avec un impôt sur le revenu payé par tous de façon à ce que tout le monde paye, mais que les plus pauvres payent moins en IR que ce qu’ils payaient en TVA afin que leur pouvoir d’achat augmente et avec en plus un revenu universel versé à tous avec là encore l’impôt sur le revenu qui récupère progressivement une partie de ce revenu universel jusqu’à 100 % pour tous ceux qui n’en ont pas besoin.
Ça me ferait mal qu’une proposition comme celle-ci soit résumée par des tags. Cela supprimerait toute la puissance de la proposition qui est en même temps concise .
Je ne suis pas sûr qu’une IA fasse mieux.
Le 08/03/2019 à 17h52
Le 08/03/2019 à 22h54
Le 09/03/2019 à 10h50
Le 09/03/2019 à 13h41
Le 09/03/2019 à 13h58
Pourtant, OB a donné de bonnes raisons pour avoir des binaires différents (même si le code exécuté pourra être le même) et surtout un lien expliquant le problème.
Le 09/03/2019 à 14h13
Le 09/03/2019 à 14h21
Le 09/03/2019 à 14h26
Le 07/03/2019 à 11h31
Cela ne m’étonne pas qu’un communiste fasse fi de la propriété intellectuelle et demande la publication du savoir faire de société privées.
Le 07/03/2019 à 11h41
Peut-être changer de presta du coup. " />
Le 07/03/2019 à 11h42
Le lien vers la grande annotation :https://grandeannotation.fr/. Rejoignez-nous !
Ce serait bien de le mettre dans l’article " />
Le 07/03/2019 à 11h44
Tu penses trouver un presta qui aurait déjà un soft opensource opérationnel ou tu veux faire développer un tel soft opensource et avoir les résultats en 2022 ?
Le 07/03/2019 à 11h47
J’imagine qu’il y a la possibilité d’utiliser du libre.
Ou alors, si c’est impossible, tu ne dis pas que la consultation sera « encadrée par toutes les garanties de loyauté et de transparence » si tu n’es pas capable de le faire.
Le 07/03/2019 à 11h54
Je ne comprends pas l’intérêt de ce projet. Catégoriser une contribution par des mots ou expressions (tel que je comprends ce qui est proposé)est très différent d’extraire le contenu et d’en tenir compte. Ça me semble très réducteur.
Peux-tu m’expliquer à quoi ça peut servir pour ensuite savoir ce qu’ont proposé ou exprimé les participants au grand débat ?
Le 07/03/2019 à 12h36
Le 07/03/2019 à 13h12
Le 07/03/2019 à 13h18
A mon avis il est inutile de demander de la transparence, de toute façon les conclusions sont déjà écrites, dixit notre premier ministre :
“Le risque déceptif est important… Il faut préparer nos concitoyens à ce que les propositions à la sortie ne soient pas les réponses à toutes les remontées des débats”
Le 07/03/2019 à 13h22
D’ailleurs on peut citer aussi :
“Nous ne reviendrons pas sur les mesures que nous avons prises pour corriger cela afin d’encourager l’investissement et faire en sorte que le travail paie d’avantage”
Une telle mise en garde idéologique laisse peu de place au changement de cap, comme on dit…
Le 07/03/2019 à 14h11
Merci de ne pas changer de sujet. Ce député est pour le vol du savoir faire de sociétés privées.
Le 07/03/2019 à 14h48
Le 07/03/2019 à 15h00
Tu vas me dire que je suis un bouffeur d’enfant si je dis que je considère que la transparence est fondamentale en démocratie?
Les enjeux ne sont pas les mêmes que pour le vote, mais il s’agit d’une consultation du peuple par l’État et il faudrait une confiance aveugle dans des entreprises privées dans son processus?
Quant au qualificatif de vol… Oui, si on se réfère aux textes en vigueur. On a le droit d’être en désaccord, il a le droit de la manifester. Il me semble qu’il est tout à fait dans son rôle de parlementaire. Il y avait une autre solution que demander le code source utilisé par le prestataire du prestataire de l’État, c’était sélectionner ces prestataires dès le début.
Le 07/03/2019 à 15h23
Le 07/03/2019 à 16h27
Il y avait une autre solution..c’était sélectionner ces prestataires dès le début……….
" />
Le 07/03/2019 à 17h18
Le 07/03/2019 à 18h34
Bon, fin de mon gentil " />.
Soyons sérieux et allons voir sur le site de la société sur quelles technologies repose leur solution.
On y parle d’IA par machine learning.
Je suis assez ignare sur le sujet et je ne suis pas capable de savoir si cela peut apporter des résultats probants, mais je sais que l’on ne peut pas fournir le “code source” d’une telle solution qui fonctionne par apprentissage.
On y voit aussi qu’ils travaillent avec des labo du CNRS, le LIP6 et d’autres partenaires.
J’ai l’impression que peu de personnes sont capables de comprendre comment ça fonctionne et de vérifier si les résultats sont probants. À lire l’article, certains spécialistes sont sceptiques sur la solution.
Par contre, comme on a les données d’entrées, (qui sont en open data) il est possible de vérifier par échantillonnage si les résultats sont conformes avec une analyse humaine. Il serait donc plus intéressant de demander des jeux de données réduites et les résultats qui en sont sortis.
On peut aussi refuser que l’on utilise de tels outils et faire analyser tout cela par des armées d’humains. Je n’ai aucune idée de ce qui donnerait le meilleur résultat dans un temps raisonnable.
Le 10/03/2019 à 08h21
Le 10/03/2019 à 08h43
Le 10/03/2019 à 13h58
Le 11/03/2019 à 09h26