La délicate question du sous-traitement des données d'entraînement de l'IA

La délicate question du sous-traitement des données d’entraînement de l’IA

Digital labor

Avatar de l'auteur

Martin Clavey

Publié dansSciences et espace

17/11/2022
6
La délicate question du sous-traitement des données d'entraînement de l'IA

Les algorithmes de machine learning ont besoin d'être entraînés sur des masses de données pour espérer être efficaces. Peu valorisée dans la chaîne de production du numérique, cette tâche est sous-traitée. Deux sociologues ont enquêté sur le fonctionnement de trois plateformes et d’une entreprise de sous-traitance sud-américaines qui s'occupent de rassembler des données créées par des humains au prix de la précarité des travailleurs, et d'une sélection reproduisant la vision du monde de leur clients.

Pour rendre les algorithmes de machine learning efficaces, les ingénieurs et chercheurs doivent d'abord les entraîner sur des masses de données très importantes, qui doivent être récoltées et documentées de manière fastidieuse. Cette tâche est essentielle mais elle est souvent sous-traitée, comme l'explique notamment le sociologue Antonio Casilli.

Et ceux qui travaillent pour les entreprises de sous-traitances sont souvent indépendants et payés quelques centimes de dollars la tâche. Cette étude qui n’est pas sans en rappeler une autre sur les plateformes et notamment « celles et ceux qui travaillent de l'autre côté des écrans et dont on ignore trop souvent l'existence ». Cela avait donné lieu à un documentaire sur France TV.

Ce mois-ci, deux autres sociologues, la chercheuse de l'Université technique de Berlin Milagros Miceli et Julian Posada de l'Université de Yale, publient un article (PDF) dans la revue scientifique Proceedings of the ACM on Human-Computer Interaction relatant leur enquête à propos de trois plateformes de crowdsourcing situées au Venezuela (Tasksource, Workerhub et Clickrating) et l'entreprise de sous-traitance argentine Alamo.

Dans leur introduction, les chercheurs qui ont interrogé de nombreux « data workers », expliquent que « leurs missions consistent généralement à interpréter et à classer des données, et leurs pratiques professionnelles impliquent des choix sociaux et techniques subjectifs qui influencent la production de données et ont des implications éthiques et politiques ».

Après avoir consulté 210 documents d'instructions adressés à ce qu'ils appellent des « data workers » pour encadrer leur travail et mené, entre mai 2019 et juin 2021, 55 entretiens avec certains d'entre-eux. Ils se sont aussi  entretenus avec des managers, des clients de ces sociétés et des gens qui travaillent dans le milieu. Les deux chercheurs en concluent que les clients utilisent les instructions de travail pour imposer un formatage prédéfini des interprétations des données. « Le contexte de pauvreté et de dépendance en Amérique latine ne laisse d'autre choix aux travailleurs que d'obéir », expliquent-ils dans leur conclusion.

Des sous-traitants peu connus des utilisateurs finaux

Des quatre acteurs observés par les chercheurs, Alamo est un peu particulier parce que cette entreprise est un sous-traitant assumé des entreprises et institutions qui travaillent dans l'intelligence artificielle, et non une plateforme où les travailleurs viennent se connecter par eux-mêmes sans lien direct avec elle, comme les trois autres.

Alamo fait même partie de ce qu'on appelle les « impact sourcing », des entreprises de sous-traitance « socialement responsables ». Elle emploie 400 jeunes travailleurs qui vivent dans les bidonvilles de Buenos Aires et leur verse le salaire minimal argentin (1,70 dollar par heure en 2019) , « ce qui contraste beaucoup avec le modèle très répandu des plateformes qui payent à la tâche » explique Milagros et Posada.

C'est cet autre modèle qu'ont suivi Tasksource, Workerhub et Clickrating. Les chercheurs précisent que les plateformes de ce genre ont prospéré dans l'économie vénézuélienne à cause de l'inflation. Tous les travailleurs qu'ils ont interrogés ont expliqué qu'ils travaillaient sur ces sites à cause de la situation du pays.

Ce système leur permet de ne pas dépendre de la valeur du bolivar en touchant des dollars américains. Selon les chercheurs, ces « data workers » gagnent entre 10 et 60 dollars par semaine (avec une moyenne de 20 dollars), ce qui est substantiellement plus haut que le salaire minimum au Venezuela (1 dollar par mois en 2021).

De micro tâches qui demandent beaucoup

Pour ces quelques dollars, les « data workers » doivent remplir des tâches du genre :

  • « Vous allez avoir deux listes de huit suggestions de recherche. Votre tâche est d'indiquer quelle liste de suggestions est la meilleure » ;
  • en tant qu'assistant « l'utilisateur va initier la conversation... vous devez utiliser des faits pour répondre aux questions de l'utilisateur » ;
  • « en fonction du texte de chaque tâche, sélectionnez une de ces trois options : explicitement sexuel, suggestif, non-sexuel » ;
  • l'estimation de l'âge d'une personne sur une photo ;
  • « vous pouvez gagner 2,5 dollars en complétant la tâche « portez-vous des lunettes ? » Téléchargez une image d'un document avec les valeurs de votre prescription maintenant ».

Selon Milagros et Posada, ces tâches servent quatre buts principaux : renforcer l'imitation de l'humain par la machine, l'évaluation des résultats sortis des algorithmes, la classification des données en leur attribuant des labels prédéfinis et la collecte directe de données.

« Tu dois penser comme une machine pas comme un humain »

Le but d'effectuer ces tâches, au départ, est d'entraîner les algorithmes à faire des choix qui se rapprochent le plus possible des humains. Mais Milagros et Posada soulignent qu' « ironiquement, alors même que [Tasksource] employait des travailleurs pour aider à former des agents artificiels, ils étaient censés se comporter comme des "robots" ».

Les chercheurs montrent que les instructions données aux « data workers » les poussent à être le plus près possible des attentes de leurs clients et à penser de la même façon qu'eux, peu importe la taille de l'entreprise, et non à répondre en tant qu'humain.

Un analyste d'Alamo leur indique, par exemple, que « les informations du client parviennent généralement d'abord au chef d'équipe ou au chef de projet et, à ce moment-là, nous organisons une réunion d'alignement des critères...
[...] L'équipe se réunit pour avoir la même cible et vérifier que nous pensons tous de la même manière ».

Dans leur article, les chercheurs expliquent que le respect du point de vue du client est explicitement noté dans les documents d'instructions sous la forme d'avertissements pour les travailleurs.

Mais c'est encore plus clair dans le témoignage qu'ils ont recueilli d'une personne qui travaille sur la plateforme TaskForce, Cécilia :

« Quand vous commencez, ils vous disent "pour réussir dans ce boulot, tu dois penser comme une machine et pas comme un humain". Après ils vous expliquent pourquoi. Par exemple, vous apprenez à une voiture [autonome] comment elle doit se comporter.

Quand vous partitionnez une image, s'il y a une voiture de police, et que vous l'étiquetez comme une voiture normale et, s'il y a un accident, quelque chose de terrible peut arriver. L'erreur n'était pas celle de la voiture qui a eu un accident avec un véhicule de police mais la vôtre, en tant que "tasker", en tant que travailleur, d'avoir appris à la voiture à se comporter comme ça  ».

Et les chercheurs insistent sur le fait que l'utilisation du modèle des plateformes pousse les travailleurs à être d'autant plus obéissants aux instructions. Un autre travailleur de TaskForce leur confie : « C'est pour ça que je n'aime pas beaucoup les plateformes. Parce qu'ils nous donnent des instructions et nous devons les suivre. Et il y a  beaucoup de cas dans lesquels, si tu ne finis pas la tâche à la perfection, de leur point de vue et en suivant ce qu'ils pensent être bon, ils te virent. Comme ça, même si tu as suivi les instructions parfaitement ».

Des améliorations possibles

Pour Milagros et Posada, pour arrêter l'aliénation des « data workers », la rendre visible n'est pas suffisant, « cela nécessite surtout que le reste de  la chaîne de l'apprentissage automatique leur soit visible. C'est à dire informer et former sur les questions techniques et linguistiques qui pourraient aider les travailleurs à comprendre comment leur précieux travail alimente une industrie de plusieurs milliards de dollars ». Les chercheurs pointent aussi que « l'une des préoccupations éthiques et humanitaires les plus urgentes concernant le travail de données externalisé est la qualité de vie des travailleurs ».

Les auteurs de l'étude ciblent enfin le fait que les retours des « data workers » pourraient être pris en compte : pour l'instant, « même si les retours pourraient être intéressants pour les clients, le dispositif de production de données est fait de telle sorte que les voix des travailleurs ne sont pas écoutées ».

6
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

Toxique de répétition

17:15IA et algorithmesSciences et espace 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Ou comment briller en société (de service)

16:53Sécurité 10
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Dangereuse, mais spécifique ?

15:57Sécurité 15

Sommaire de l'article

Introduction

Des sous-traitants peu connus des utilisateurs finaux

De micro tâches qui demandent beaucoup

« Tu dois penser comme une machine pas comme un humain »

Des améliorations possibles

livre dématérialisé

Des chercheurs ont élaboré une technique d’extraction des données d’entrainement de ChatGPT

IA et algorithmesSciences et espace 3
Un chien avec des lunettes apprend sur une tablette

Devenir expert en sécurité informatique en 3 clics

Sécurité 10
Logo ownCloud

ownCloud : faille béante dans les déploiements conteneurisés utilisant graphapi

Sécurité 15
Le SoC Graviton4 d’Amazon AWS posé sur une table

Amazon re:invent : SoC Graviton4 (Arm), instance R8g et Trainium2 pour l’IA

Hardware 4
Logo Comcybergend

Guéguerre des polices dans le cyber (OFAC et ComCyberMi)

Sécurité 10

#LeBrief : faille 0-day dans Chrome, smartphones à Hong Kong, 25 ans de la Dreamcast

0
Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

OVHcloud Summit 2023 : SecNumCloud, IA et Local Zones

HardwareInternet 2
algorithmes de la CAF

Transparence, discriminations : les questions soulevées par l’algorithme de la CAF

IA et algorithmesSociété numérique 58

Plainte contre l’alternative paiement ou publicité comportementale de Meta

DroitIA et algorithmes 31
Nuage (pour le cloud) avec de la foudre

Économie de la donnée et services de cloud : l’Arcep renforce ses troupes

DroitInternet 0
De vieux ciseaux posés sur une surface en bois

Plus de 60 % des demandes de suppression reçues par Google émanent de Russie

Société numérique 4
Une vieille boussole posée sur un plan en bois

La Commission européenne et Google proposent deux bases de données de fact-checks

DroitInternet 3

#LeBrief : des fichiers Google Drive disparaissent, FreeBSD 14, caméras camouflées, OnePlus 12

0

Le poing Dev – round 6

Next 146

Produits dangereux sur le web : nouvelles obligations en vue pour les marketplaces

Droit 9
consommation de l'ia

Usages et frugalité : quelle place pour les IA dans la société de demain ?

IA et algorithmes 12

La NASA établit une liaison laser à 16 millions de km, les essais continuent

Sciences et espace 17
Concept de CPU

Semi-conducteurs : un important accord entre l’Europe et l’Inde

Hardware 7

#LeBrief : PS5 Slim en France, Valeo porte plainte contre NVIDIA, pertes publicitaires X/Twitter

0
Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

651e édition des LIDD : Liens Intelligents Du Dimanche

Internet 30
Bannière de Flock avec des bomes sur un fond rouge

#Flock, le grand remplacement par les intelligences artificielles

Flock 34
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #9 : LeBrief 2.0, ligne édito, dossiers de fond

Next 65
Pilule rouge et bleue avec des messages codés

Encapsulation de clés et chiffrement d’enveloppes

Sécurité 31
Empreinte digital sur une capteur

Empreintes digitales : les capteurs Windows Hello loin d’être exemplaires

Sécurité 20

#LeBrief : succès du test d’Ariane 6, réparer plutôt que remplacer, Broadcom finalise le rachat de VMware

0
Le brief de ce matin n'est pas encore là

Partez acheter vos croissants
Et faites chauffer votre bouilloire,
Le brief arrive dans un instant,
Tout frais du matin, gardez espoir.

Commentaires (6)


marba
Il y a 1 an

Merci pour cet article de qualité :yes:



Ils devraient faire une IA pour automatiser le process d’entrainement des IA :troll:


misocard Abonné
Il y a 1 an

Je crois que c’est l’idée derrière le principe du gan


Humble Abonné
Il y a 1 an

Je pensais que les “automates turques” étaient de l’histoire ancienne, merci de l’info.
Vu la description des besoins, on ne va pas s’en passer de suite.
Explication


Thomas Desvenain Abonné
Il y a 1 an

les chercheurs mentionnés ont fait un rapport qui tentent d’évaluer le micro travail et les micro travailleurs de l’IA en france, à lire…


MisterDams Abonné
Il y a 1 an

misocard a dit:


Je crois que c’est l’idée derrière le principe du gan




Même pour un GaN, il faut que celui que le discriminant dispose d’un modèle de référence, donc un entraînement préalable via des données documentées.


cthoumieux Abonné
Il y a 1 an

Merci pour cette article qui montre une facette de ce qui se cache derrière l IA
Hormis le fait que des big compagnies exploitent des pauvres dans des pays en difficulté , ce qui est helas classique et a toujours exister… la question qui est intéressante est comment faire pour ne pas introduire un biais.
Si on demande a des gens de le faire volontairement la bêtise humaine va créer des pb (cf le cas d’une ia devenu raciste)
Si on paye des gens pour le faire ils feront ce que celui qui paye veut (et c’est normal ils sont payés pour cela)
Bref c compliqué