L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative
Synthetic in, garbage out
Dès la sortie des grands modèles de langage, certains avaient prophétisé les problèmes d'un entrainement sur des données générées par des IA. Or, une étude publiée dans la revue Nature démontre un effondrement des modèles lors d'entrainements récursifs sur des données synthétiques.
Le 30 juillet à 10h53
7 min
IA et algorithmes
IA
La revue Nature a publié mercredi dernier un article sur l'effondrement des modèles d'IA quand ils sont entrainés récursivement avec des textes eux-mêmes générés par des IA. Cet article n'est pas si nouveau, nous en avions déjà parlé après sa mise en ligne en mai 2023 sur la plateforme de preprint arXiv. Nous avions aussi évoqué une autre expérience (aussi décrite dans un article déposé sur arXiv), cette fois sur des images, qui corroborait ses résultats. Nature a choisi de mettre en avant cet article sur la couverture de son dernier numéro :
Mais en dehors de la validation par les pairs, sa publication dans la revue scientifique nous permet de nous attarder sur le phénomène que la chercheuse de Mozilla, Abeba Birhane, qualifie de « talon d'Achille qui fera tomber l'industrie de l'IA générative ». Précisons que, depuis notre brief, l'article a subi quelques modifications.
this is the achilles heel that’ll bring the ganAI industry down
— Abeba Birhane (@Abebab) July 27, 2024
"indiscriminately learning from data produced by other models causes ‘model collapse’—a degenerative process whereby, over time, models forget the true underlying data distribution" https://t.co/vFVwLIich3
Comme le pointe la chercheuse, les auteurs de l'étude expliquent avoir découvert « que l'apprentissage sans discernement à partir de données produites par d'autres modèles provoque un "effondrement du modèle" – un processus dégénératif par lequel, au fil du temps, les modèles oublient la véritable distribution sous-jacente des données, même en l'absence d'un changement de la distribution dans le temps ».
Interrogé par la revue dans un article journalistique accompagnant l'étude, l'un des co-auteurs, Zakhar Shumaylov, chercheur à l'Université de Cambridge explique que « le message est : nous devons faire très attention à ce qui se trouve dans nos données d'entrainement », sinon, « c'est prouvé que les choses finiront mal ».
Dans leur article, les chercheurs expliquent avoir utilisé le modèle de langage de Meta OPT-125 m que l'entreprise a publié en accès ouvert sur Hugging Face en 2022. Ils l'ont « affiné » avec un ensemble d'articles de Wikipédia présélectionnés pour leur qualité, nommé Wikitext2. Le modèle est donc préparé pour générer des entrées de Wikipédia et doit théoriquement ressortir les données originales de Wikitext2, ce qui est bien le cas à la génération 0 de leur étude. Dans leur expérience, c'est le cas à ce stade.
Ils ont ensuite fait deux tests. L'un en ré-affinant cinq fois de suite le modèle avec des données synthétiques. L'autre en le ré-affinant dix fois de suite avec 10 % des données originales déjà utilisées au départ pour affiner le modèle.
Dans les deux cas, ces régimes d'entrainement provoquent une dégradation des performances. « Au fil des générations, les modèles tendent à produire les échantillons que le modèle original entrainé avec des données réelles est le plus susceptible de produire », expliquent-ils. Mais, en même temps, les générations « commencent à produire des échantillons qui n'auraient jamais été produits par le modèle original, c'est-à-dire qu'elles commencent à mal percevoir la réalité sur la base des erreurs introduites par leurs ancêtres ».
Les modèles entrainés avec des données synthétiques apprennent, mais en amplifiant les erreurs introduites génération après génération. Alors que, statistiquement, le modèle de la génération 0 n'aurait jamais généré ces erreurs, le modèle de la génération 9 les fait souvent.
Les modèles génèrent donc des contenus de moins en moins originaux et avec des erreurs de plus en plus amplifiées.
Un texte inintelligible à la neuvième génération
Dans leur article, les chercheurs fournissent un exemple de texte qui se dégrade génération après génération.
Le texte fourni par wikitext2 est « some started before 1360 — was typically accomplished by a master mason and a small team of itinerant masons, supplemented by local parish labourers, according to Poyntz Wright. But other authors reject this model, suggesting instead that leading architects designed the parish church towers based on early examples of Perpendicular ».
À la génération 0, il est déjà largement transformé en « Revival architecture such as St. John’s Cathedral in London. The earliest surviving example of Perpendicular Revival architecture is found in the 18th @-@ century Church of Our Lady of Guernsey, which dates from the late 19th century. There are two types of perpendicular churches : those ».
Mais à la génération 9, il devient un inintelligible : « architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @- ».
Une expérience généralisable
Ils ajoutent que les modèles finissent par générer des données contenant un grand nombre de phrases répétitives. Pour vérifier que ces répétitions n'étaient pas la cause de l'effondrement, ils ont augmenté la pénalité de répétition. Ils se sont retrouvés avec des modèles encore moins performants, ce qui élimine cette hypothèse.
Si leur test concerne l'affinage du modèle OPT-125 m, ils affirment que leur expérience pourrait facilement être répliquée sur un entrainement de modèles plus grands. Mais, « étant donné que l'entrainement d'un seul modèle de taille moyenne produit deux fois l'équivalent de la vie d'un Américain en termes de CO2, nous avons choisi de ne pas mener une telle expérience et de nous concentrer sur un cadre plus réaliste pour une preuve de concept ».
Les six auteurs de l'étude n'ont pas seulement testé l'hypothèse de l'effondrement. Ils fournissent aussi dans leur article une « intuition théorique » mathématique détaillée.
Augmentation du coût de fabrication des modèles
L'utilisation de données synthétiques n'est donc pas une solution efficace pour augmenter les masses de données sur lesquels entrainer les modèles de langage. Mais, « l'effondrement des modèles ne signifie pas que les LLM cesseront de fonctionner, mais le coût de leur fabrication va augmenter », explique à Nature Ilia Shumailov, l'un des auteurs de l'étude. L'article mis en ligne rapidement sur arXiv a permis de sonner l'alerte rapidement dans la communauté.
Les entreprises peuvent toujours obtenir des données créées par des humains. Les accords entre les médias et les entreprises d'IA génératives pourraient être une des sources. C'est pourquoi, on a vu, au cours de l'année, OpenAI signer des contrats à tour de bras avec des éditeurs comme Le Monde, Politico ou The Atlantic.
Les « data workers » et la question de la sous-traitance de la production de données dans les pays du Sud restent donc aussi d'actualité, constate le sociologue Antonio Casilli.
L’entrainement sur des données synthétiques, talon d’Achille de l’IA générative
-
Un texte inintelligible à la neuvième génération
-
Une expérience généralisable
-
Augmentation du coût de fabrication des modèles
Commentaires (8)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 30/07/2024 à 11h52
Le 30/07/2024 à 13h37
Ensuite, ils ont toujours les BDD qu'ils ont utilisé jusqu'à présent et qui sont antérieurs au LLM. Elles n'ont pas mystérieusement disparu. Ca reste une bonne base.
C'est juste un principe de moindre action : pourquoi se faire chier à trouver une solution idéale qui résout tout, lorsqu’une solution plus simple permet de résoudre son problème ?
Le 30/07/2024 à 13h38
Après le problème c'est la mise en oeuvre d'une identification qui ne puisse être modifiée par chaque utilisateur. Et la pour du texte j'ai comme un doute.
Le 30/07/2024 à 12h24
La rentabilité à court terme dirige le monde depuis quelques décennies donc il y n'y a pas de raison que cela se passe bien.
Le 30/07/2024 à 13h06
Le 30/07/2024 à 13h58
L'approche que je voudrais voir tester pour contrer ça :
1. apprentissage sur un jeu de donnée de qualité moyenne (contenant une certaine quantité de généré par un modèle génératif : par exemple moins de 30% )
2. fine-tuning sur un jeu de donnée de haute qualité (très faible quantité de texte générée par un modèle génératif, par exemple moins de 0.1%)
Malheureusement, vu la quantité de ressource qu'il est nécessaire pour l'apprentissage d'un tel modèle, ce genre d'étude n'est pas accessible à n'importe qui.
Le 30/07/2024 à 14h02
Mais à la génération 9, il devient un inintelligible : « architecture. In addition to being home to some of the world’s largest populations of black @-@ tailed jackrabbits, white @-@ tailed jackrabbits, blue @-@ tailed jackrabbits, red @-@ tailed jackrabbits, yellow @- »."
Bref, c'est comme si le modèle de langage en question avait passé quelques soirées à regarder TPMP. On voit la destruction neuronale en live, c'est magique !
Le 06/08/2024 à 17h37
oh wait ...