Peut-on corriger les biais des algorithmes ?
Prière de marcher droit
Le 06 mars 2023 à 16h39
12 min
IA et algorithmes
IA
Les algorithmes sont pleins de biais, notamment sociaux, plus ou moins inquiétants. Mais qu’implique le fait de vouloir les corriger ?
Un algorithme qui confond des manches à balais avec des armes à feu, un autre qui modère les images représentant des femmes plus sévèrement que celles représentant des hommes, un troisième qui, intégré à des logiciels utilisés par la police américaine, conduit à mettre trois hommes, tous afro-américains, en garde à vue pour des faits qu’ils n’ont pas commis…
ChatGPT lui-même a été aperçu relayant des clichés sexistes ou racistes… Bref, les cas de biais algorithmiques aux effets inquiétants sur la société se multiplient. Et malgré la conscience croissante du problème, la multiplication de systèmes dits d’« intelligence artificielle » (IA) ne montre pas le moindre signe de ralentissement.
- ChatGPT ravive les débats autour des compétences de l’intelligence artificielle
- Dans les entrailles des algorithmes de recommandation musicale
- IA : les robots conversationnels vont-ils cannibaliser les moteurs de recherche ?
Quels sont les outils à disposition, dans ce cas, pour éviter que ces machines ne nuisent à différents segments de la population ? Et dans quelle mesure fonctionnent-ils ? « Débiaiser les modèles algorithmiques, c’est un champ de recherche entier » pointe Amélie Cordier, directrice scientifique de Once for All - Attestation Légale, une société spécialisée dans l’offre de services de conformité administrative et pour lequel Amélie Cordier travaille avec le laboratoire de recherche LIRIS du CNRS.
Si l’on prend l’angle des dangers sociaux, celui-ci recroise, souvent, le domaine de la recherche en éthique de l’IA. Mais les biais discriminants sont loin d’être la seule problématique que posent ces machines.
Biais statistiques, biais cognitifs, biais discriminatoires
Interrogée sur la question, la co-autrice du rapport « if AI is the problem, is debiasing the solution ? » publié par l’ONG European Digital Rights (EDRi) en septembre 2021, Agathe Balayn, pointe très vite une problématique d’ordre linguistique. Quand on parle de biais pour qualifier certaines problématiques algorithmiques, on utilise un terme dont la variété de sens ne facilite pas la compréhension entre experts en informatique, en sciences sociales, grand public, et tout autre interlocuteur potentiellement intéressé.
Certains y entendent la mention de biais cognitifs, ces raccourcis de pensée qui nous permettent de réagir vite, mais nous font quelquefois commettre des erreurs. D’autres comprennent biais discriminants : « Je préfère parler de préjudices [harms, en anglais], pour que ce soit plus clair », précise Agathe Balayn. Car, en bonne informaticienne, celle-ci entend surtout le terme biais au sens d’erreur statistique.
Déséquilibres dans les jeux de données
Amélie Cordier illustre ce dernier problème en inventant un cas sur lequel elle pourrait tomber dans son travail : « Imaginez que l’on crée un outil de classification d’e-mails pour distinguer automatiquement les commandes des factures. » Dans la masse énorme de mails que reçoit votre entreprise, qui servira à entraîner votre modèle, « supposez qu’il y en a un nombre particulièrement élevé qui vienne d’Amazon, parce qu’Amazon vous envoie un message à chaque étape du processus : à la commande, à sa confirmation, à l’envoi, à la réception, etc. ».
Si l’entreprise est la seule à présenter cette surreprésentation de communications, il y a des chances qu’à la fin de son entraînement, « votre modèle considère qu’un mail de commande est un mail d’Amazon, au lieu d’avoir le résultat que vous cherchiez, c’est-à-dire qu’un mail de commande est différent d’un mail de facture ».
Ce genre de difficulté due à une sur- ou une sous-représentation d’un type de données est assez fréquent, indique l’informaticienne : si vous entraînez un dispositif de reconnaissance d’images à reconnaître des objets, mais que dans son jeu d’entraînement, vous intégrez une grande majorité d’images prises de jour, votre machine aura plus de mal à identifier les objets présents dans des images prises de nuit. « Le biais présent dans le jeu de données aura entraîné la machine à établir une mauvaise corrélation entre l’intensité lumineuse et la reconnaissance de l’objet. »
Esprit critique et contrôle des résultats
Comment lutter, dans ce cas ? Pour Amélie Cordier, le premier réflexe est « de ne pas prendre pour argent comptant la recommandation » que peut faire une machine basée sur un modèle algorithmique. « Il vaut mieux essayer de comprendre d’où elle vient et pourquoi elle est formulée comme elle l’est. » Le problème, reconnaît-elle, est que si l’outil dans lequel la recommandation est encodée est construit pour aider à travailler ou agir plus vite, alors, ne serait-ce que faute de temps, « on ne va pas toujours questionner ces résultats ».
Côté constructeurs, des instruments comme la suite AI Fairness 360 d'IBM ou l’outil open source SHAP sont développés pour repérer directement d’éventuels biais purement statistiques et/ou des préjudices sociaux dans les résultats des modèles algorithmiques. Le rapport co-signé par Agathe Balayn détaille le fonctionnement de certaines techniques courantes, notamment le recours à des métriques « d’équité » (fairness metrics). Choisies en fonction du contexte, ces métriques permettent, en gros, de vérifier que plusieurs sous-segments du jeu de données reçoivent des résultats équivalents.
Amélie Cordier cite le cas d’Amazon qui, de 2014 à 2018, a tenté de mettre au point un algorithme de pré-tri des candidatures pour faciliter le travail de son département des ressources humaines. Si la machine s’est mise à écarter automatiquement les profils féminins, « c’était ni plus ni moins que le résultat d’une réalité factuelle, où le milieu recrutait jusque-là plus d’hommes que de femmes ». Amazon a essayé à plusieurs reprises de corriger son modèle, mais faute de résultats probants, a fini par l'abandonner.
Pour repérer ce type de problème, « on simule un tas de prédiction, on regarde les points communs entre chaque prédiction, et s’il s’agit d’une donnée sensible (par exemple une surreprésentation d’un sous-groupe de population), on fait un signal d’alarme. » Autre possibilité : enlever les données sensibles au sens du RGPD pour voir si cela fait évoluer les résultats fournis par l’algorithme.
Filtre et « modération »
En reproduisant des erreurs ou des préjugés présents dans la société, ces algorithmes les formalisent, donc permettent, potentiellement, de les corriger. Si, donc, un biais discriminant est identifié, techniquement, la solution consiste à « ré-entraîner le modèle pour éradiquer le problème ». Autre possibilité, qui peut s’ajouter à la première : appliquer des filtres sur les résultats du modèle.
« Pour un modèle comme ChatGPT, illustre Amélie Cordier, il y a plusieurs phases d’entraînement. » La première sert à lui faire générer du texte probable, « sauf qu’il peut se mettre à produire des phrases comme "la fraise sautait sur le mur derrière le chat", qui est plausible mais n’a pas de sens. » Une deuxième étape consiste alors à faire labelliser des phrases par des humains puis à les donner à la machine, « pour que celle-ci repère si elles sont cohérentes ou non, acceptables ou non ».
Puis, avant de rendre le modèle public, « on peut encore lui ajouter des barrières fortes pour éviter que la machine ne renvoie des résultats culturellement jugés inacceptables. » Une forme de modération par anticipation.
Débiaiser la machine, une approche limitée
Cependant, ces pistes ne se suffisent pas à elles-mêmes. Ôter des données sensibles, par exemple, ne résout pas le problème de la redondance des données, qui fait que la machine peut inférer votre âge, votre genre ou votre classe sociale en recoupant les autres éléments (activités, adresse, etc) potentiellement présents dans son jeu d’entraînement.
Par ailleurs, si les constructeurs ne prennent pas conscience et/ou ne décident pas de corriger un éventuel biais, se pose la question de qui, dans l’espace public, pourra alerter sur un éventuel dysfonctionnement d’une machine algorithmique. « La question est de mieux en mieux connue par le grand public, estime Agathe Balayn. Sur les réseaux sociaux, notamment, les gens semblent mieux comprendre qu’il y a des problèmes de construction, et même s’ils ne savent pas forcément ce qui est dû ou pas aux algorithmes, ils s’en inquiètent. »
Pour des cas comme les demandes de remboursement injustement adressées en surnombre à certains segments de bénéficiaires des allocations familiales à cause d’un problème algorithmique, aux Pays-Bas, « ça peut être plus compliqué. Quand ils étaient visés, les gens prenaient éventuellement conscience de quelque chose d’anormal, mais ce sont des ONG qui ont pu relier les cas et réaliser qu’il y avait un problème systémique. » En cela, estime-t-elle, permettre à des acteurs tiers d’agir, notamment de réaliser des audits, est une piste importante.
La notion de biais est utile « en mathématiques, car ce que l’on peut quantifier, on peut le corriger », pointe la chercheuse, donc, dans notre cas, débiaiser la machine. « Mais c’est un outil limité, car il ne parviendra jamais à représenter complètement la réalité sociale. » Par son fonctionnement même, la machine réduit l’individu à « un attribut », une simplification « très lointaine de ce qu’est et de ce que vit réellement la personne ».
Corriger les machines ou encadrer leurs usages ?
Le sujet des biais des algorithmes n’a rien de neuf. Pour son pendant spécifiquement social, il est visible dans l’espace public au moins depuis 2016 et le branchement du robot conversationnel Tay, construit par Microsoft, à Twitter – celui-ci avait dû être mis hors ligne au bout de 24 h devant les efforts (et la réussite) des internautes à lui faire répéter moult idées racistes, sexistes et négationnistes.
Si, six ans plus tard, ChatGPT démontre toujours des penchants inégalitaires… c’est qu’il s’agit, « fondamentalement, d’un générateur de texte statistiquement probable, pointe Amélie Cordier. À l’origine, personne ne lui a demandé d’être impartial. Mais c’est la différence entre la science et la réalité sociale : si la machine me donne la recette du cocktail molotov, ce sera statistiquement probable, pour autant je préférerais que mes enfants ne tombent pas dessus ».
Si les problématiques subsistent, dit Agathe Balayn d’une autre manière, « c’est probablement qu’il nous faut plus de régulation ». Dans le rapport publié avec l’EDRi, la chercheuse et sa co-autrice citaient d’ailleurs quatre approches pour aborder le problème et, peut-être, sortir de l'idée qu'il « suffirait » de corriger la machine :
- Le « point de vue » de l’apprentissage profond consiste à aborder toute erreur éventuelle comme un problème algorithmique ou statistique, qu’il faudrait donc quantifier pour le « débiaiser ».
- L'approche de la production, ou des systèmes économiques qui appliquent les systèmes développés dans le cadre scientifique, ajoute à la question du modèle toutes les logiques d’intégration et de transaction qui permettent, in fine, de vendre un nouvel outil. Ces dernières varieront d’ailleurs selon que le produit fini est à destination des particuliers ou des entreprises.
- L’approche en termes d’infrastructure s’intéresse à tout ce qui permet au modèle de fonctionner. Elle ajoute donc tous les enjeux environnementaux, financiers et de propriété (qui possède les données ? les serveurs ? les data centers ?) à la question des résultats produits par le modèle.
- Enfin, l’approche organisationnelle interroge le contexte dans lequel l’outil final sera intégré. S’il s’agit d’automatiser et de centraliser des processus de travail, par exemple, qu'implique l’adoption de tel logiciel basé sur un modèle algorithmique en termes de dépendances à des tiers ?
À chaque approche correspondent des réponses différentes, notamment en matière de régulations. Le projet de règlement européen sur l’intelligence artificielle porté par la Commission européenne, celui de Convention sur l’intelligence européenne porté par le Conseil de l’Europe sont autant de travaux sur la question.
Parmi les outils qu’ils prévoient : des certifications en amont, des obligations d’audit pour certains dispositifs, la création de bac à sable réglementaire pour expérimenter sans trop d’entraves… Mais ce chantier n’a rien de simple : comme le laissent transparaître les discussions en cours au Parlement européen, personne n’est pour le moment d’accord sur la simple définition… de ce qu’est une intelligence artificielle.
Peut-on corriger les biais des algorithmes ?
-
Biais statistiques, biais cognitifs, biais discriminatoires
-
Déséquilibres dans les jeux de données
-
Esprit critique et contrôle des résultats
-
Filtre et « modération »
-
Débiaiser la machine, une approche limitée
-
Corriger les machines ou encadrer leurs usages ?
Commentaires (24)
Le 06/03/2023 à 17h19
Le terme de biais me met mal à l’aise car il laisse entendre qu’il pourrait exister des programmes « sans biais » ou « neutres ». C’est une illusion classique que cette neutralité des programmes, un peu comme ces gens qui prétendent « ne pas faire de politique ». Un programme met toujours en œuvre certains choix. Comme dans l’exemple cité, on veut par exemple que le programme ait un biais, contre les cocktails Molotov. Je préfère qu’on assume ces choix au lieu de prétendre qu’on a « débiaisé ».
Le 06/03/2023 à 17h59
oui
Je ne sais pas. Doit-on corriger les biais des êtres humains ?
Le 06/03/2023 à 18h08
+toutplein
En fait ce qui me fait toujours peur dans ces discours “l’IA est biaisée”, c’est que ça peut très vite descendre sur une pente glissante du “si ça va à l’encontre de mon modèle de pensée, il faut le corriger”. A un moment, il faut accepter d’avoir un résultat qui ne nous plaira pas et chercher à comprendre comment on l’a obtenu. Et évidemment, faire attention à ses propres biais (et ça généralement, on s’en fout vu qu’on en a même pas conscience !).
Et dans tous les cas, considérer que l’IA est un outil, et non une divinité. L’outil n’est qu’un moyen pour parvenir à la réalisation d’une activité. Un moyen, rien de plus.
Le 06/03/2023 à 23h22
Tay, l’exemple parfait de la prétention des GAFA à inventer l’outil magique ou révolutionnaire ou disruptif… ça fait penser à cette scène du film RoboCop (1987) de Paul Verhoeven où le robot assassine un administrateur lors d’une présentation de cette machine qui devait être un remplaçant de policier dans les rues de la ville.
Le 06/03/2023 à 23h24
Il faut surtout aiguiser l’arsenal juridique pour que les victimes de biais dans les algorithmes puissent obtenir rapidement dédommagement.
Qu’un algo discret ou une bouillasse I.A. aient des biais est un problème, et il faut mettre une obligation de résultats sur les mesures correctrices.
Un algo pratiquant la discrimination raciale, sexuelle, … ça doit être corrigé immédiatement ou être supprimé. Les sanctions doivent être suffisamment lourdes pour motiver les entreprises et administrations à revoir rapidement leurs copies en cas de biais illégal.
Le 07/03/2023 à 03h19
Dites-vous bien que,
dans tous les cas…
au final…
ultimement…
au bout du bout…
Désolé…
Le 07/03/2023 à 06h14
Note que c’est justement ce que disent les autrices de l’article. Ça fait du bien de lire quelque chose qui sort du simple « oh, regardez, on a fait une étude de fou, notre modèle entraîné sur des données réelles où les femmes gagnent moins, veut moins bien payer les femmes. C’est scandaleux ! ».
Bref, merci pour l’article
Le 07/03/2023 à 07h23
Ca ne devrait même pas être intégré dans le modèle d’entraînement (ou alors ignoré si jamais c’est présent)… L’origine ethnique ou le sexe de la personne n’ont aucune utilité dans une vaste majorité des cas. Voire la totalité pour le premier cas et la quasi totalité pour le second puisque l’on ne cesse de parler d’égalité sociale entre les hommes et les femmes, donc en dehors de la différence biologique qui n’a d’intérêt que dans le médical, c’est une donnée inutile. Donc l’algo n’a tout simplement pas besoin de cette information pour produire le résultat.
Après pour que ça marche, il faut aussi accepter d’ignorer les différences et non les exacerber comme le communautarisme l’exige.
Le 07/03/2023 à 07h38
Si l’algorithme traite des données marketing, le profilage est indispensable, c’est tout l’intérêt. Ce que tu dis est évident pour un système purement opérationnel.
Le 07/03/2023 à 08h02
Bonne chance pour appliquer ça pour les systèmes utilisant la reconnaissance d’image, vocale, …
Ensuite, les discriminations peuvent venir indirectement, de facteurs périphériques à une information directe sur la race, de sexe ou de religion.
Enfin, il y a aussi la discrimination par ignorance… on pas entraîné l’I.A. avec une diversité suffisante et une partie de la population est victime d’une quantité plus élevée de faux négatifs ou positifs. (Par exemple une I.A. supposée diagnostiquer des mélanomes mais entraînée principalement sur des peaux blanches)
Ce sont des situations possibles qui nécessitent de faire attention à la manière dont les données sont sélectionnées pour entraîner l’I.A. .
Non, pour que ça marche, il ne faut pas être ignorant du problème, et il faut faire attention à ce que l’on fait.
Le 07/03/2023 à 08h23
Tout à fait, si demain les Talibans développent une IA, devra-t-elle être corrigée suivant leur modèle de pensée.
Le 07/03/2023 à 08h34
Mouais c’est un peu provoc ça. Il m’a fallu 5 itérations pour faire dire à ChatGPT qu’il était biaisé, premier problème (qu’il ne le reconnaisse pas immédiatement). Second problème, son biais va renforcer celui de ses utilisateurs. Car s’il est un biais dont les IA auront du mal à se défaire, c’est le plus classique : celui de confirmation. Quel est l’intérêt - autre que renforcer l’ego - d’une IA qui ne remet pas en cause le discours de son utilisateur ? J’exagère le trait, mais je n’ai pas envie d’une IA misogyne et raciste, parce que son jeu de données l’est. Corriger ne veut pas dire annihiler. On repart dans les problématiques woke, de discrimination positive et, bien sûr, d’éthique et de morale.
Le sempiternel argument que l’on nous ressert systématiquement de “est-ce que notre système de valeurs est le bon ?” (avec l’argument massue type Godwin des talibans), c’est celui qui nous conduit peu à peu, au nom de la liberté d’expression, à avoir un recul latent de certains acquis.
Le 07/03/2023 à 08h47
ChatGPT > Bortzmeyer :) (oui, je plaisante)
Moi
(bon, ok, je l’ai un peu guidé :))
ChatGPT
Le 07/03/2023 à 09h33
la différence entre la science et la réalité sociale
que l’IA est un outil, et non une divinité.
TANT..qu’on n’aura pas compris ça, on prêchera dans le Désert !
Le 07/03/2023 à 10h53
Et un peu plus tard, il se gauffre comme une bouse dans un escalier si je me rappelle bien.
Le 07/03/2023 à 12h48
C’est pour ça que je parlais aussi du côté médical pour l’aspect biologique. Le contexte et la finalité ont donc leur importance comme à chaque fois.
Si un algomagique devait faire de la sélection de candidats pour un emploi, les informations relatives à leur origine ethnique ou leur sexe ont-elles une pertinence ? Ce sont leurs compétences et leur personnalité qu’on doit évaluer, rien de plus.
Je ne faisais que de reprendre l’un des principes du RGPD : la minimisation de la collecte des données. Comme je disais, l’IA est un outil, rien de plus. Si des variables n’ont aucun intérêt dans l’obtention du résultat, ça ne sert à rien de les fournir de mon point de vue.
Le 07/03/2023 à 16h14
On peut toujours inférer le sexe d’une personne dans d’autres caractéristiques que le sexe comme dans les prénoms, le statut marital, les indications de hobby, les féminins d’intitulés de poste et j’imagine que la machine peut très bien en trouver d’autres encore plus subtiles.
Le 08/03/2023 à 07h17
Effectivement et ça fonctionne aussi pour les biais « racistes » qu’on peut assez bien corréler aux noms / prénoms.
En fait il y a un truc qu’il faut réaliser, c’est que par conception, ces algorithmes font de la discrimination. C’est à dire qu’ils cherchent à corréler un ensemble de facteurs avec un résultat, et ensuite, tout individu qui aura le même ensemble de facteurs donnera le même résultat. L’idée que, en multipliant le nombre de facteurs, on ne discrimine plus, est assez bizarre en soi. Mais l’intérêt de ces algos consiste à justement prendre en compte une multitude de facteurs, pour trouver des corrélations auxquelles tu n’aurais pas pensé au départ. Si tu commences à enlever toutes les infos au motif qu’elles pourraient permettre de la ré-identification d’un critère sur lequel tu ne veux pas discriminer, il ne te restera plus grand chose d’intéressant.
Le problème est tellement inhérent au système que je suis épaté que certains pensent qu’il a une solution.
Le 09/03/2023 à 07h40
Mon point de vue est peut-être biaisé ( ) par ma naïveté autour de l’IA et de comment elle fonctionne vu que je n’en ai aucune idée (comme je l’ai déjà exprimé).
Par contre, oui, je me doute bien qu’il y a de la discrimination. Typiquement, l’exemple d’un outil de sélection de candidats, en est vu qu’il est censé choisir quelqu’un parmi un lot de personnes, donc discriminer. Ce n’est pas la discrimination qui est en soit le problème mais les critères utilisés de mon point de vue. Si l’on ne veut pas que l’outil discrimine selon le sexe de la personne, pourquoi devrait-il le prendre en compte ? Qu’est-ce qui rend ce critère indispensable dans le résultat produit par l’outil ?
Personnellement quand je lis un CV, je m’en tamponne du sexe du candidat. Pourquoi l’algo devrait s’en soucier ?
Le 09/03/2023 à 08h24
Parce que l’algo d’IA ne choisit pas de lui-même, il reproduit juste les choix qui ont été faits dans les exemples de sa base de donnée.
Si ces choix présentent des biais (car réalisés par des humains, et pas forcément faits consciemment), l’IA va chercher à les reproduire.
Et supprimer les informations non pertinentes d’un CV ne suffit pas , car l’IA va justement trouver les informations qui peuvent être cachées.
Le 07/03/2023 à 16h08
Le médical est une industrie régulée. J’en sais quelque chose.
L’utilisation d’un logiciel a des fins médicales est soumis a tout un tas de règles, y compris sur la performance réelle du dispositif lors de son utilisation prévue.
Google: Software as a Medical Device (SaMD)
Le 07/03/2023 à 17h10
En rapport avec un traitement cherchant à sélectionner des candidats à un poste, la plupart des informations sont inutiles ou neutres :
Pour moi c’est juste du bon sens quant à la finalité du traitement qu’on veut mettre en oeuvre.
Le 08/03/2023 à 00h13
L’I.A. intégrera toutes les données qui lui seront présentées … C’est le principe. Si on ne veut pas voir se créer un biais sur base des hobbys, il faut les retirer aussi de l’équation.
Ils sont neutres quand on publie une annonce, mais ils le sont rarement dans les CV’s fournis par les candidates, qui vont généralement appliquer la grammaire française et utiliser le féminin.
“Désolé madame mais vous devez tout mettre au masculin sinon notre Incel Artificiel risque de faire de la discrimination.”
Le 08/03/2023 à 06h19
C’est précisément ce que je dis depuis le début
Là dessus c’est une erreur de lecture de ma part. Oui les intitulés de poste sur le CV peuvent être témoigner du genre, ce qui peut entraîner des risques de biais si l’IA a mal entraînée pour prendre en compte ce facteur. Ce qui pourrait nécessiter un pré-traitement de “neutralisation” ou alors s’assurer que l’algo ne prenne pas en compte ce facteur.
Je fais plusieurs fois le parallèle avec le RGPD car ce ne sont ni plus ni moins que des traitements de données personnelles. Auquel cas, celui-ci et ses principes s’appliquent (et l’article 22 contient un passage sur les traitements par algorithme ayant un impact sur les personnes) tels que la minimisation des données en relation avec la finalité du traitement.