Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données
Artéfacts
Le 19 juillet 2023 à 15h42
6 min
Société numérique
Société
Les modèles d'intelligence artificielle permettent de générer du texte, des images et des vidéos avec une incroyable facilité. Mais leur entrainement répétitif sur des données qu'ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.
Depuis l'arrivée de ChatGPT, l'utilisation de modèles de langage et d'intelligence artificielle générative d'images et de vidéos a explosé et de plus en plus de données issues de ces outils se retrouvent sur Internet.
L'IA générative permet de créer des sites entiers sans qu'un humain ait à écrire un article ou à créer une image. Certains « crowd workers » les utilisent déjà pour fournir des réponses qui seront insérées dans de nouvelles bases d'entrainement. Une base de données contenant des images d'entrainement comme LAION-5B contient déjà des images générées par ce genre d'IA. Le site Have I been trained permet d'ailleurs de savoir si une image a déjà été utilisée pour entrainer des IA.
- Dangers des grands modèles de langage : des chercheuses avaient prévenu
- Tech Generation, le site qui teste ce que ChatGPT sait faire en journalisme tech
- Quand chatGPT est utilisé par les « crowd workers » pour entraîner d'autres modèles de langage
Mais nous avons encore du mal à comprendre quels impacts cette masse de contenus générés de façon automatique peut avoir sur notre utilisation d'internet ainsi que sur l'entrainement de ces IA elles-mêmes.
Une étude, mise en ligne [PDF] sur le site arXiv par des chercheurs des universités de Rice et de Stanford, montre qu'au bout de cinq itérations d'entrainement sur des données fabriquées par une de ces IA, celle-ci amplifie leurs biais et artéfacts de manière visible.
Exemple sur un modèle de génération d'images
Pour nous rendre saillant le problème, Sina Alemohammad et ses collègues ont fait un test sur StyleGAN-2, un modèle créé par des chercheurs de NVIDIA. Ils ont d'abord utilisé ce modèle pour créer une base de données d'images. Puis, ils l'ont ré-entrainé avec cette base de données ne contenant que des images « synthétiques ». Et ainsi de suite, créant ce qu'ils appellent « une boucle totalement synthétique ».
Petit à petit, on voit apparaître les artéfacts et biais ressortir de ces images qui ne sont clairement plus des images « comme les autres ». Ci-dessous, dans la succession d'images provenant des différentes générations du test, des hachures non visibles sur la première génération d'images commencent doucement à être perceptibles en troisième génération et devenir franchement problématiques à partir de la cinquième.
Autophagie et éloignement des données réelles
Cet exemple illustre ce qu'ils ont constaté aussi sur d'autres modèles et qu'ils théorisent dans leur article. Ce processus répété crée ce qu'ils appellent une boucle « autophage » (qui se consomme elle-même). « Sans suffisamment de données fraîches réelles à chaque génération d'une boucle autophage, les futurs modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) diminuer progressivement », expliquent-ils.
En comparant les données créées dans une « boucle totalement synthétique » avec de réelles données, ils observent, comme on peut le voir ci-dessous, que les données « synthétiques » s'éloignent petit à petit des données « réelles » et forment petit à petit un groupe de données bien distinct par rapport aux autres alors que ce n'était pas le cas dans les premières générations.
Si la « boucle totalement synthétique » est appliquée sur des données ayant des biais d'échantillonnage, les données ne fusionnent pas, mais on peut observer ci-dessous qu'elles dérivent en se regroupant autour de certains points (de haute qualité, précisent les chercheurs).
Les chercheurs admettent dans leur article qu'en pratique, il y a peu de chance que les créateurs de ce genre de base de données ne le fassent qu'avec des données « synthétiques ».
Ils ont donc observé ce qu'il se passait dans le cas où les données d'apprentissage sont constituées d'un ensemble de données réelles fixe, progressivement complété par des données synthétiques, ce qu'ils ont appelé une « boucle d'augmentation synthétique ». Mais, selon leur expérience, « un ensemble de données réelles fixe ne fait que ralentir la dégradation des modèles génératifs ».
Ce n'est qu'en ajoutant seulement des données réelles « fraiches » qu'ils arrivent à ce que les modèles ne tombent pas dans un « Model Autophagy Disorder » (MAD), en français, trouble de l'autophagie de modèle.
Des modèles « fous » ou juste « bugués » ?
« Model Autophagy Disorder », le terme inventé par Sina Alemohammad et ses collègues, rappelle le vocabulaire médical. Et son acronyme, MAD, résonne clairement comme la volonté de poser un diagnostic psychiatrique sur ces modèles. D'autant que l'on peut lire aussi dans leur article des phrases évoquant, avec une pointe d'ironie, la folie, par exemple, « Training exclusively on synthetic data leads to MADness » (littéralement en français, « Entraîner exclusivement sur des données synthétiques conduit à la folie »).
Si leur article montre de façon convaincante une vraie question sur l'utilisation des données « synthétiques » et nous donne des clés pour comprendre leurs bugs, cette utilisation du vocabulaire médical paraît plus problématique pour ne pas tomber dans les travers de l'anthropomorphisme pointé parfois par la linguiste Emily Bender.
Il n'en reste pas moins que les auteurs de cette étude sont clairs : « selon un scénario catastrophe, si le MAD n'est pas contrôlé pendant plusieurs générations, il pourrait empoisonner la qualité et la diversité des données de l'ensemble de l'internet. En l'absence d'un tel scénario, il semble inévitable que l'autophagie de l'IA entraîne, même à court terme, des conséquences imprévues jusqu'à présent ». Ils demandent aux praticiens qui « utilisent délibérément des données synthétiques pour l'entrainement parce que c'est bon marché et facile » de prendre leurs conclusions comme un avertissement et d'envisager de tempérer leurs habitudes.
Les chercheurs proposent aussi, « étant donné que les modèles génératifs n'ajoutent pas nécessairement des métadonnées aux images générées », que les utilisateurs ajoutent des filigranes à leurs images ainsi générées, pour qu'elles soient rejetées lors de la création de base de données d'entrainement. Cette proposition ne vaut, en revanche, pas pour les textes.
Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données
-
Exemple sur un modèle de génération d'images
-
Autophagie et éloignement des données réelles
-
Des modèles « fous » ou juste « bugués » ?
Commentaires (30)
Le 19/07/2023 à 17h09
Non, sans blague.
Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire
Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.
Impatient de lire une étude comparative IA génératives vs Gartic Phone.
Le 20/07/2023 à 02h45
Même si l’existance du phénomène est attendue (ça fait d’ailleurs un moment que pas mal de spécialistes alertent là dessus), ça ne veut pas dire qu’il est inintéressant de l’étudier dans le détail, ne serais-ce que pour avoir une meilleure idée du niveau des risques que ça pose.
Le 20/07/2023 à 06h40
L’intérêt d’une étude scientifique (une fois que son résultat aura été validé par d’autres études similaires aboutissant aux mêmes conclusions) c’est que, même si tu t’attendais intuitivement à ce résultat, tu peux maintenant t’appuyer dessus pour enrichir ta réflexion par autre chose qu’un argument de café du commerce ou une parole de ministre.
Le 20/07/2023 à 07h07
Ça me semble évident. Le truc de base produit des artefacts, qu’il n’est bien sûr pas capable de corriger, et si je comprends bien comment ça marche, tout ce qu’on peut faire c’est entraîner plus plus plus pour les faire disparaître autant que possible.
Est-ce que quelqu’un peut m’expliquer en quoi c’est pas évident, au point qu’on vérifie la chose ? (Après étudier à quel point ça dérive vite, pourquoi pas… Mais pourquoi y’a-a-t-il besoin de dire que oui, ça dégénère).
Je crois que je viens de trouver le mot adapté : les IA génératives dégénèrent
Le 20/07/2023 à 11h44
Pourquoi il y a besoin de démontrer ce qui se passe? Peut-être parce que, entre ceux qui vont relativiser les échecs de l’IA avec des comparaisons photographiques et ceux qui vont exagérer les réussites des algorithmes profonds en cachant des défauts par des subterfuges illusionistes, il y a ceux et celles qui pratiquent la science avec méthode et discipline.
Le 19/07/2023 à 17h57
Bah au final ça démontre que l’IA est proche de l’humain.
Enfermée dans sa bulle, elle devient conne.
Le 19/07/2023 à 18h09
L’humain réduit à nourrir indéfiniment l’algorithme.
Petite digression : ça me fait penser à mon nouveau syndic (l’un des 4 ou 5 groupes immobiliers nationaux ou européens) qui se prétend digitalisé et qui m’a fourni un appel de fonds avec des dizaines de lignes au même libellé identique, suite à une migration informatique. Champion l’algo, mais j’imagine que la vérification humaine de toutes ces lignes (jamais eu un appel de fond de 3 pages auparavant) n’est pas nécessaire puisque la machine ne se trompe soit-disant jamais.
Le 19/07/2023 à 19h14
Après c’est pas plus mal que ça soit verifié et étudié, fin pour moi c’est pas le sujet le moins intéressant.
Le 19/07/2023 à 20h23
La modélisation imite très bien la réalité.
Jusqu’à la dégénérescence due à la consanguinité.
Le 20/07/2023 à 06h33
Les résultats de cette étude me semblent être une très bonne nouvelle. Ça devrait poussé les générateurs d’images à watermarker les images générées. Comme ça elles pourront ainsi facilement être retirés des bases d’images utilisées pour l’apprentissage.
Et en prime, ça permettra aussi d’identifier facilement les fichiers générés automatiquement des autres pour M. Tout-le-monde.
Le 20/07/2023 à 08h12
Ca veut aussi dire qu’on peut empoisonner des bases de données “publiques” (photos de profil, dessins, …)
Les sites qui se plaignent du pillage de leurs données via les API pourraient également générer plein de faux trucs qui ne seraient pas filtrés par ceux qui ne paient pas.
Le 20/07/2023 à 08h23
La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée
Le 20/07/2023 à 06h57
Ça marche comme chez les humains : Quand toute la famille se marie entre frères et sœur ça ne se voit pas forcément à la première génération, mais au bout de quelques générations y’a quelques problèmes qui apparaissent :)
C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?
Le 20/07/2023 à 07h13
Quand l’IA te dira que ChatGPT est le fer de lance métallique de OpenAI ?
Ça dépend de la partie “hardcodée” du truc. S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés. Des tournures inusitées ? Des fautes de grammaires ?
Voir les IA de négociation de Facebook et leur propre langage ?
Le 20/07/2023 à 07h17
Heureusement que le monde de la recherche ne se base pas sur ce genre de commentaires.
Avoir l’intuition d’un résultat attendu ne vaut pas démonstration.
De même l’investigation des raisons pour lequel ledit résultat est obtenu peut être source d’informations permettant de modifier les process d’apprentissage par exemple.
Exemple: l’histoire de la génétique montre comment on est passé d’une intuition de l’hérédité (les enfants ressemblent souvent aux parents) à une démonstration qui a permis de poser les bases d’une nouvelle science.
Le 20/07/2023 à 07h56
Pour le texte, je dirais que le résultat sera un appauvrissement de son modèle de langage et de la perte d’information. Un peu comme les débats de 200 caractères sur Twitter, c’est pauvre car impossible de développer l’idée.
Comme GPT est entraîné en apprenant à lire du texte, de facto il retient des concordances de mots dans un contexte (c’est ça qui fait qu’il est capable de répondre à une question). Donc au fur et à mesure, je pense qu’il va y avoir des pertes car le contexte s’appauvrira et il finira par être de plus en plus à côté de la plaque.
Par contre un traitement en mode AutoGPT ou GPT s’auto challenge au travers de plusieurs questions/réponses pour produire un résultat c’est une approche très intéressante pour justement éviter cette “consanguinité”.
Le 20/07/2023 à 08h42
“moins j’en fais..et mieux je me porte”
Le 20/07/2023 à 10h12
J’aimerais bien voir le résultat au bout de 50, 100, 1000 ou 10000 itérations…
Le 20/07/2023 à 11h40
exactement ce que je pensais :) problème de consanguinité
Le 20/07/2023 à 13h35
Je rappelle qu’à la base, TOUS les mots sont inventés.
Le 20/07/2023 à 14h21
Et les développeurs qui publient sur Github leur code généré avec Copilot
Le 23/07/2023 à 06h03
Je pense cet “empoisonnement” est un problème qui va se poser de plus en plus dans le futur.
Ca concerne tous les secteurs où l’IA sera utilisé.
Et on est encore au début, si le taux d’adoption des IA augmente avec le temps et l’amélioration des performances et des outils, le problème va s aggraver. Ça sera plus difficile d avoir un jeu de données récent et sain pour entraîner une IA
Le 20/07/2023 à 17h37
Si le nombre d’artefacts (ou biais, ou whatever) diminuait à chaque génération, les IA actuelles seraient en boucle permanente d’apprentissage. Et depuis le temps on aurait des IA. Et les entreprises qui améliorent leur IA ne se fatigueraient pas a collecter des données IRL si elles pouvaient simplement utiliser celles que leur IA fabrique déjà.
L’idée qu’une IA pourrait permettre de construire une meilleure version d’elle même (même de 1%) est pour l’instant de la science-fiction. Souhaitons que ca le reste…
Le 20/07/2023 à 18h15
Je ne critique pas du tout la volonté d’étudier la chose.
Seulement, de ce que je sais de l’IA, à part atteindre le “modèle parfait” qui n’a plus besoin d’amélioration (ce qui veut dire aussi qu’on ne créé plus rien, parce que “génère moi quelqu’un avec un smartphone dans la main” entraîné avec des photos d’il y a 30 ans ça serait rigolo…), les modèles devront continuer à être entraînés.
Si on commence à les entraîner massivement avec leur propre contenue biaisé… S’ils étaient “au courant” du bias, ils ne génèreraient pas… Donc ils vont s’entraîner à créer plus de biais, donc il me semble logique que le problème s’accroisse.
Question : y’a-t-il une faille dans mon raisonnement ?
Le 21/07/2023 à 06h29
Ton raisonnement me paraît juste. Mais il n’est pas suffisant. Je voulais juste dire que sans étude scientifique du phénomène, le marketing des sociétés travaillant avec l’IA peut aussi émettre un raisonnement qui paraît juste. Se tromper est tellement fréquent. Un raisonnement peut aussi être trompeur si on étudie pas sérieusement le sujet.
Le 21/07/2023 à 06h47
ah oui bien vu !
Le 21/07/2023 à 08h41
En gros (et je ne réagissais pas à cet article précisément), ce qui m’a choqué c’est l’apparente nouvelle renversante : entraîner les IA sur les résultats des IA cause des problèmes.
Quelqu’un aurait sorti un article disant qu’entraîner en boucle les IA améliore leur résultats, ça ça m’aurait choqué.
Je suis perturbé par le fait qu’il semble que pour certains c’est un résultat inattendu.
(Quant à ce que disent les sociétés elles-mêmes, je prends avec des pincettes tout ce qui a un conflit d’intérêt dont je suis au courant)
Le 21/07/2023 à 12h22
comme certains disent : “garbage in, garbage out”. Cette mousse créée pa rles département marketing des entreprises de l’inforamtique n’est fait que pour tirer à la hausse la valorisation de leurs actions. Avant il y avait le metaverse mais ça a été un flop. Le vocabulaire “IA” ou “AI” est plus accrocheur et fait un tabac, même cela reste encore bien nébuleux tout ça, alors fonçons !
Le 21/07/2023 à 13h33
Pour le coup l’IA génératrice, c’est loin d’être aussi nébuleux que l’était le metavers : c’est concret, ça existe, et ça se consomme. Les offres de service autour se développent ainsi que les produits qui se basent dessus (chatbot de Carrefour basé sur GPT par exemple).
Le 24/07/2023 à 09h17
Sous-titre alternatif : “Garbage in, garbage out”