Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

Artificial Artificial Artificial Intelligence

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d'autres modèles de langage

Le 16 juin 2023 à 14h51

Commentaires (16)

votre avatar

Chatception :D Il n’y aura bientôt plus une trace d’intelligence humaine sur les réseaux sociaux, déjà qu’il n’y en a pas beaucoup :transpi:

votre avatar

Je ne sais pas trop quoi dire sur cet article. ChatGPT en a très bien fait la synthèse, mais il n’a pas été en mesure de me proposer une réaction pertinente :keskidit:

votre avatar

Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?

votre avatar

Joeman a dit:


Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?


Parce que cela rajoute, au “signal” humain des rédacteurs de contenus que l’on voudrait étudier, le biais des concepteurs du système (choix des données ayant alimenté le modèle). De fait, le signal n’est plus exploitable en tant que tel.



Il ne s’agit donc pas des mêmes “biais”. Les humains ont des “opinions” et des “préjugés”. On peut éventuellement les appeler “biais” si l’on peut les confronter à des faits scientifiquement prouvés (rotondité de la Terre, inefficacité de l’hydroxychloroquine, etc.). Dans bien d’autre cas, faute de faits, cela reste des “opinions” que l’on veut pouvoir mesurer sans biais ajouté.

votre avatar

Je comprends où tu veux en venir, mais ce n’est pas ce que dit le message que je cite: il parle bien de “perpetuate biases”, pas d’ajouter une couche de biais sur des biais existants sur les données source.
Je tiquais sur le fait que le message semble sous entendre que des données non synthétiques seraient mieux du point de vue de perpétuer les biais. Ce qui n’a pas trop de sens pour moi.

votre avatar

Joeman a dit:


Pas compris le point 2 du tweet de fin: en quoi utiliser des données synthétiques serait pire niveau biais que d’utiliser justement des données issues d’humains, par définition biaisés ?


Il y a amplification du biais car, dans un système avec boucle de rétroaction (*), les données inhabituelles ont moins de poids que celles qui font consensus. A chaque génération d’un LLM, leur influence sur le modèle est amoindrie.



(*) les textes/données générées actuellement par les IA sont utilisés dans des publications qui serviront un jour à entrainer les futurs IA. Ce qui crée une boucle.

votre avatar

Voilà. Perso cette boucle de rétroaction, je la trouve très inquiétante, sachant qu’à l’heure où l’on se parle, la majorité des gens qui consultent des LLM sont loin d’être des pros de la profession, on a plutôt à faire à des gens certes curieux, ludiques, voire intéressés d’en tirer profit, mais surtout largement influençables.



Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?



Le danger de ces algorithmes, c’est que c’est comme des écrans sur lesquels on peut projeter absolument tout et n’importe quoi, il suffit de se balader sur YT ou autre pour trouver des déclarations intempestives sur cette prétendue “AI” qui relèvent plus de la croyance / spéculation hasardeuse / théorie du complot que d’un réel apport sérieux et argumenté au débat de société sur le sujet.



En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…

votre avatar

(quote:2138699:DantonQ-Robespierre)
Peut-être qu’avant de permettre au grand public de discuter avec ChatGPT ou équivalent, on devrait leur proposer une formation complète démontrant les limites et les biais du bouzin…?
(…)
En d’autres termes : un ignorant tel que moi, un LLM peux lui faire gober absolument n’importe quoi, il suffit que tu le programme d’une façon qui lui donne un semblant de crédibilité et un ton péremptoire…


Ca ne s’applique pas qu’aux outils basés sur l’IA, l’esprit critique est une chose qui doit être développée et appliquée pour tout. C’est sur ça qu’il faut développer comme compétence. Et j’ai vraiment des doutes que ça le soit vraiment…



A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia comme une source d’info mais comme une base de recherche. L’esprit critique ça se développe et ça s’applique pour tout.



Mais bon, quand je vois que le moindre message avec une photo sortie de son contexte engendre de la désinformation sur les machins sociaux, je pense que je prêche dans le désert.

votre avatar

C’est censé être aussi le rôle de l’enseignement, malheureusement les enseignants aujourd’hui subissent toutes sortes de pressions parentales et sociétales d’un autre âge, il devient bien difficile aujourd’hui de délivrer un enseignement réellement pluraliste et inclusif, factuel, invitant à la réflexion individuelle, à la créativité, à la curiosité…



On n’en parle pas assez mais cette pression à bas bruit - qui peut devenir carrément violente, ex. : l’assassinat de Samuel Patti - de l’extrême droite et des milieux plus ou moins religieux / intégristes / fascistes sur l’enseignement joue un grand rôle dans le manque de discernement de certains jeunes qui n’ont pas eu la chance de grandir dans un environnement social favorable à l’ouverture, à la créativité et à la diversité.

votre avatar

SebGF a dit:


A l’époque où j’ai fait ma formation initiale, début 2000, on nous apprenait à croiser nos sources sur Internet et à ne pas croire le premier résultat Google trouvé, et ne pas considérer Wikipedia


Google et Wikipedia n’existaient pas encore début 2000 :) (enfin google en beta si mais ça n’avait pas encore réellement traversé l’atlantique)

votre avatar

Début années 2000, il manquait un mot en effet.

votre avatar

J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?



Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer (plus d’homme infirmier ou femme dev dans les deux exemples ). J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir. Du coup un biais ce serait totalement arbitraire et subjectif et c’est là que les ennuis commencent à mon sens

votre avatar

Je pense que dans le débat on oublie que les modèles représentent ce avec quoi ils ont été entraînés et, d’un certain point de vue, la “réalité” de ce modèle d’entraînement. Or, cette “réalité” peut heurter des convictions ou une vision plus idéalisée.



Je disais sur ce précédent article, les modèles sont limités à ce qu’on leur a donné à manger.



Quand on utilise les LLM, on apprend justement qu’il ne faut pas utiliser leurs connaissances comme source d’info (ce ne sont pas des moteurs de recherche), mais comme critères à leur donner pour produire le résultat. Sinon par défaut, oui, ça va recracher bêtement ce que ça a appris. Comme un humain en somme.



Mais j’ai toujours l’impression que peu de monde au final a vraiment testé ces outils. Le prompt pour un LLM ce n’est rien de plus qu’un cahier des charges. Plus celui-ci est vague, plus il restera dans sa “zone de confort”, influencée elle-même par le poids donné au prompt (paramétrage pour le rendre plus ou moins imaginatif). Par contre si le cahier des charges est précis avec des critères et une pondération qui vont avec, il produira quelque chose allant dans le sens de la demande (moyennant évidemment ses capacités, la mise en scène ou l’interaction entre personnages est encore peu efficace sur StableDiffusion, même si les nouvelles versions comprennent mieux ces points).

votre avatar

ronki a dit:


Les LLM ne s’appuie uniquement sur la réalité concrète (a peu près), les IA globalement font un résumé de ce qu’elles ont « vu »et ne font pas de projection de tendances que nous cherchons tous à influencer.


Si ces IA balancent des femmes infirmières et des hommes ingénieurs c’est que les bases d’images (getty, shutterstock…) ayant servi pour l’entrainement sont bourrées de clichés stéréotypés. L’IA apprend ces stéréotypes. Et c’est bien un stéréotype, je fais de l’informatique, j’ai toujours eu entre 30 et 50% de femmes, si tu vas à l’hosto tu vas croiser des infirmiers (certes peut-être moins nombreuses que les infirmières mais ils sont bien là).
Bref le biais est déjà là, et si on fait appel à des humains, c’est pour qu’ils donnent leur avis, le fait d’utiliser une IA pour répondre à une IA va amplifier le biais.
Un réseau neuronal est “simplement” une grosse équation avec des ratios de probabilités, donc si une IA biaisée fait la leçon à une autre IA la nouvelle risque d’apprendre encore plus ce biais.

votre avatar

ronki a dit:


J’aimerai bien qu’on développe ces histoires de biais car il y a une chose qui me gêne : prenons un exemple je demande à midjourney de me présenter une équipe d’infirmerie et là paf que des femmes ou une promo d’école d’ingé informatique et là que des homme. Ouh le méchant biais me criera t’on. Mais dans la réalité c’est bien le cas. Du coup qu’appelle t’on biais ?
J’ai l’impression qu’on appelle biais quelque chose qui va contre la vision idéologique du futur que l’on veut promouvoir.


Je m’interroge aussi, je pense qu’on parle de biais quand cela bloque la représentation d’un possible.



Un autre: pour illustrer un challenge mathématique, j’ai demandé de faire représenter un combat entre une fille et un garçon à l’aide de calculettes.
-> Les IA semblent ne PAS pouvoir sortir d’image de combat entre une fille et un garçon. En demandant des images d’affrontements de ce genre, je me retrouve avec des couples heureux.



-> je m’interroge sur ces filtres sensés nous protéger (ou plutôt “censés”)

votre avatar

Ca y est, on y est enfin !!



James Cameron, quel visionnaire !! :bravo:



Des machines qui conçoivent et créent d’autres machines… Terminator



Autrement illustré par un vieux proverbe Français:



“Le serpent qui se mange la queue”



Le futur: fascinant & terrifiant :eeek2:

Quand chatGPT est utilisé par les « crowd workers » pour entraîner d’autres modèles de langage

  • Qui a écrit les résumés de texte ?

  • Alerte sur tous les contenus pouvant être générés via LLM

  • Automatisation du « Turc mécanique »

Fermer