L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative

Synthetic in, garbage out

Dès la sortie des grands modèles de langage, certains avaient prophétisé les problèmes d'un entrainement sur des données générées par des IA. Or, une étude publiée dans la revue Nature démontre un effondrement des modèles lors d'entrainements récursifs sur des données synthétiques.

Martin Clavey

Le 30 juillet 2024 à 10h53

7 min

IA et algorithmes

La revue Nature a publié mercredi dernier un article sur l'effondrement des modèles d'IA quand ils sont entrainés récursivement avec des textes eux-mêmes générés par des IA. Cet article n'est pas si nouveau, nous en avions déjà parlé après sa mise en ligne en mai 2023 sur la plateforme de preprint arXiv. Nous avions aussi évoqué une autre expérience (aussi décrite dans un article déposé sur arXiv), cette fois sur des images, qui corroborait ses résultats. Nature a choisi de mettre en avant cet article sur la couverture de son dernier numéro :

Mais en dehors de la validation par les pairs, sa publication dans la revue scientifique nous permet de nous attarder sur le phénomène que la chercheuse de Mozilla, Abeba Birhane, qualifie de « talon d'Achille qui fera tomber l'industrie de l'IA générative ». Précisons que, depuis notre brief, l'article a subi quelques modifications.

this is the achilles heel that’ll bring the ganAI industry down

"indiscriminately learning from data produced by other models causes ‘model collapse’—a degenerative process whereby, over time, models forget the true underlying data distribution" https://t.co/vFVwLIich3
— Abeba Birhane (@Abebab) July 27, 2024

Comme le pointe la chercheuse, les auteurs de l'étude expliquent avoir découvert « que l'apprentissage sans discernement à partir de données produites par d'autres modèles provoque un "effondrement du modèle" – un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données, même en l'absence d'un changement de la distribution dans le temps ».

Interrogé par la revue dans un article journalistique accompagnant l'étude, l'un des co-auteurs, Zakhar Shumaylov, chercheur à l'Université de Cambridge explique que « le message est : nous devons faire très attention à ce qui se trouve dans nos données d'entrainement », sinon, « c'est prouvé que les choses finiront mal ».

Dans leur article, les chercheurs expliquent avoir utilisé le modèle de langage de Meta OPT-125 m que l'entreprise a publié en accès ouvert sur Hugging Face en 2022. Ils l'ont « affiné » avec un ensemble d'articles de Wikipédia présélectionnés pour leur qualité, nommé Wikitext2. Le modèle est donc préparé pour générer des entrées de Wikipédia et doit théoriquement ressortir les données originales de Wikitext2, ce qui est bien le cas à la génération 0 de leur étude. Dans leur expérience, c'est le cas à ce stade.

Ils ont ensuite fait deux tests. L'un en ré-affinant cinq fois de suite le modèle avec des données synthétiques. L'autre en le ré-affinant dix fois de suite avec 10 % des données originales déjà utilisées au départ pour affiner le modèle.

Dans les deux cas, ces régimes d'entrainement provoquent une dégradation des performances. « Au fil des générations, les modèles tendent à produire les échantillons que le modèle original entrainé avec des données réelles est le plus susceptible de produire », expliquent-ils. Mais, en même temps, les générations « commencent à produire des échantillons qui n'auraient jamais été produits par le modèle original, c'est-à-dire qu'elles commencent à mal percevoir la réalité sur la base des erreurs introduites par leurs ancêtres ».

Les modèles entrainés avec des données synthétiques apprennent, mais en amplifiant les erreurs introduites génération après génération. Alors que, statistiquement, le modèle de la génération 0 n'aurait jamais généré ces erreurs, le modèle de la génération 9 les fait souvent.

Les modèles génèrent donc des contenus de moins en moins originaux et avec des erreurs de plus en plus amplifiées.

Un texte inintelligible à la neuvième génération

Dans leur article, les chercheurs fournissent un exemple de texte qui se dégrade génération après génération.

Le texte fourni par wikitext2 est « some started before 1360 — was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular ».

À la génération 0, il est déjà largement transformé en « Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches : those ».

Mais à la génération 9, il devient un inintelligible : « architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @- ».

Une expérience généralisable

Ils ajoutent que les modèles finissent par générer des données contenant un grand nombre de phrases répétitives. Pour vérifier que ces répétitions n'étaient pas la cause de l'effondrement, ils ont augmenté la pénalité de répétition. Ils se sont retrouvés avec des modèles encore moins performants, ce qui élimine cette hypothèse.

Si leur test concerne l'affinage du modèle OPT-125 m, ils affirment que leur expérience pourrait facilement être répliquée sur un entrainement de modèles plus grands. Mais, « étant donné que l'entrainement d'un seul modèle de taille moyenne produit deux fois l'équivalent de la vie d'un Américain en termes de CO2, nous avons choisi de ne pas mener une telle expérience et de nous concentrer sur un cadre plus réaliste pour une preuve de concept ».

Les six auteurs de l'étude n'ont pas seulement testé l'hypothèse de l'effondrement. Ils fournissent aussi dans leur article une « intuition théorique » mathématique détaillée.

Augmentation du coût de fabrication des modèles

L'utilisation de données synthétiques n'est donc pas une solution efficace pour augmenter les masses de données sur lesquels entrainer les modèles de langage. Mais, « l'effondrement des modèles ne signifie pas que les LLM cesseront de fonctionner, mais le coût de leur fabrication va augmenter », explique à Nature Ilia Shumailov, l'un des auteurs de l'étude. L'article mis en ligne rapidement sur arXiv a permis de sonner l'alerte rapidement dans la communauté.

Les entreprises peuvent toujours obtenir des données créées par des humains. Les accords entre les médias et les entreprises d'IA génératives pourraient être une des sources. C'est pourquoi, on a vu, au cours de l'année, OpenAI signer des contrats à tour de bras avec des éditeurs comme Le Monde, Politico ou The Atlantic.

- ChatGPT produit de faux liens vers les médias partenaires d’OpenAI, dont Le Monde et Politico

Les « data workers » et la question de la sous-traitance de la production de données dans les pays du Sud restent donc aussi d'actualité, constate le sociologue Antonio Casilli.

- La délicate question du sous-traitement des données d’entraînement de l’IA

Commentaires (8)

pamputt Abonné

Modifié le 30/07/2024 à 11h52

Espérons que les fabricants de LLM voient cela comme un problème pour eux. Ça les forcera peut-être à identifier clairement le contenu généré par IA afin qu'ils puissent exclure ce genre de contenu facilement de leur futur entrainement. Et ça permettra aussi aux journalistes et aux citoyens lamdba de pouvoir identifié clairement ce genre de contenu comme ayant été généré par IA.

tazvld Abonné

Le 30/07/2024 à 13h37

Tu risques d'être déçu. Tant qu'il y a de la masse, l'outil n'a pas besoin d'être très sensible, En effet, si ton outil génère plein de faux positif (texte écrit par un humain, mais pris pour un texte généré par un modèle génératif) mais que de l'autre côté, il retire la majorité des vrais positifs (du texte généré par un modèle génératif pris pour tel), ses données d'entrée sont alors plutôt bonnes (quasi uniquement du texte généré par un être humain). Même s'il a retiré 70% des textes comme ça, la quantité de données en entrée laisse assez de données pour l'entrainement.

Ensuite, ils ont toujours les BDD qu'ils ont utilisé jusqu'à présent et qui sont antérieurs au LLM. Elles n'ont pas mystérieusement disparu. Ca reste une bonne base.

C'est juste un principe de moindre action : pourquoi se faire chier à trouver une solution idéale qui résout tout, lorsqu’une solution plus simple permet de résoudre son problème ?

carbier Abonné

Le 30/07/2024 à 13h38

+1 C'est la première à laquelle j'ai pensé en lisant l'article.

Après le problème c'est la mise en oeuvre d'une identification qui ne puisse être modifiée par chaque utilisateur. Et la pour du texte j'ai comme un doute.

wanou Abonné

Le 30/07/2024 à 12h24

La fourniture de données soit-disant fraiches et cachant en fait du synthétique sera rapidement une arnaque rentable donc j'ai bien peur que les effondrement deviennent monnaie courante de toute façon.
La rentabilité à court terme dirige le monde depuis quelques décennies donc il y n'y a pas de raison que cela se passe bien.

Neliger Abonné

Le 30/07/2024 à 13h06

Je le pense également, bientôt le far west dans cette industrie!

tazvld Abonné

Le 30/07/2024 à 13h58

Personnellement, une limite de leur approche que je vois à première vue (je n'ai pas regardé l'article en détail, j'ai juste survolé, du coup, je ne sais pas s'ils y répondent), c'est qu'ils se limitent à un fine-tuning d'un LLM. Un fine-tuning va forcément très vite amplifier les erreurs. C'est une sorte de "sur-ajustement" pour coller au mieux à une quantité de données restreintes.

L'approche que je voudrais voir tester pour contrer ça :

1. apprentissage sur un jeu de donnée de qualité moyenne (contenant une certaine quantité de généré par un modèle génératif : par exemple moins de 30% )
2. fine-tuning sur un jeu de donnée de haute qualité (très faible quantité de texte générée par un modèle génératif, par exemple moins de 0.1%)

Malheureusement, vu la quantité de ressource qu'il est nécessaire pour l'apprentissage d'un tel modèle, ce genre d'étude n'est pas accessible à n'importe qui.

sitesref Abonné

Le 30/07/2024 à 14h02

"À la génération 0, il est déjà largement transformé en « Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches : those ».

Mais à la génération 9, il devient un inintelligible : « architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @- »."

Bref, c'est comme si le modèle de langage en question avait passé quelques soirées à regarder TPMP. On voit la destruction neuronale en live, c'est magique !

fofo9012 Abonné

Le 06/08/2024 à 17h37

OpenAI signer des contrats à tour de bras avec des éditeurs comme Le Monde, Politico ou The Atlantic.

Contrats qui permet aux journalistes d'utiliser OpenAI pour générer des articles...

oh wait ...