Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Artéfacts

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

Le 19 juillet 2023 à 15h42

Commentaires (30)

votre avatar

Mais leur entrainement répétitif sur des données qu’ils ont eux-mêmes créées ferait apparaître des artefacts de plus en plus problématiques dans leurs résultats.


Non, sans blague.
Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire



Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.



Impatient de lire une étude comparative IA génératives vs Gartic Phone. :transpi:

votre avatar

Même si l’existance du phénomène est attendue (ça fait d’ailleurs un moment que pas mal de spécialistes alertent là dessus), ça ne veut pas dire qu’il est inintéressant de l’étudier dans le détail, ne serais-ce que pour avoir une meilleure idée du niveau des risques que ça pose.

votre avatar

L’intérêt d’une étude scientifique (une fois que son résultat aura été validé par d’autres études similaires aboutissant aux mêmes conclusions) c’est que, même si tu t’attendais intuitivement à ce résultat, tu peux maintenant t’appuyer dessus pour enrichir ta réflexion par autre chose qu’un argument de café du commerce ou une parole de ministre.

votre avatar

Ça me semble évident. Le truc de base produit des artefacts, qu’il n’est bien sûr pas capable de corriger, et si je comprends bien comment ça marche, tout ce qu’on peut faire c’est entraîner plus plus plus pour les faire disparaître autant que possible.



Est-ce que quelqu’un peut m’expliquer en quoi c’est pas évident, au point qu’on vérifie la chose ? (Après étudier à quel point ça dérive vite, pourquoi pas… Mais pourquoi y’a-a-t-il besoin de dire que oui, ça dégénère).



Je crois que je viens de trouver le mot adapté : les IA génératives dégénèrent :D

votre avatar

Pourquoi il y a besoin de démontrer ce qui se passe? Peut-être parce que, entre ceux qui vont relativiser les échecs de l’IA avec des comparaisons photographiques et ceux qui vont exagérer les réussites des algorithmes profonds en cachant des défauts par des subterfuges illusionistes, il y a ceux et celles qui pratiquent la science avec méthode et discipline.

votre avatar

Bah au final ça démontre que l’IA est proche de l’humain.



Enfermée dans sa bulle, elle devient conne.

votre avatar

L’humain réduit à nourrir indéfiniment l’algorithme.



Petite digression : ça me fait penser à mon nouveau syndic (l’un des 4 ou 5 groupes immobiliers nationaux ou européens) qui se prétend digitalisé et qui m’a fourni un appel de fonds avec des dizaines de lignes au même libellé identique, suite à une migration informatique. Champion l’algo, mais j’imagine que la vérification humaine de toutes ces lignes (jamais eu un appel de fond de 3 pages auparavant) n’est pas nécessaire puisque la machine ne se trompe soit-disant jamais.

votre avatar

(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire


Après c’est pas plus mal que ça soit verifié et étudié, fin pour moi c’est pas le sujet le moins intéressant.

votre avatar

La modélisation imite très bien la réalité.
Jusqu’à la dégénérescence due à la consanguinité. :mdr2:

votre avatar

Les résultats de cette étude me semblent être une très bonne nouvelle. Ça devrait poussé les générateurs d’images à watermarker les images générées. Comme ça elles pourront ainsi facilement être retirés des bases d’images utilisées pour l’apprentissage.



Et en prime, ça permettra aussi d’identifier facilement les fichiers générés automatiquement des autres pour M. Tout-le-monde.

votre avatar

Ca veut aussi dire qu’on peut empoisonner des bases de données “publiques” (photos de profil, dessins, …)



Les sites qui se plaignent du pillage de leurs données via les API pourraient également générer plein de faux trucs qui ne seraient pas filtrés par ceux qui ne paient pas.

votre avatar

La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée :D

votre avatar

Ça marche comme chez les humains : Quand toute la famille se marie entre frères et sœur ça ne se voit pas forcément à la première génération, mais au bout de quelques générations y’a quelques problèmes qui apparaissent :)



C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?

votre avatar

Quand l’IA te dira que ChatGPT est le fer de lance métallique de OpenAI ?
Ça dépend de la partie “hardcodée” du truc. S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés. Des tournures inusitées ? Des fautes de grammaires ?



Voir les IA de négociation de Facebook et leur propre langage ?

votre avatar

(quote:2143592:127.0.0.1)
Non, sans blague. Comme les photocopies ou les enregistrements sur VHS ? Mais qui aurait pu le prédire



Ca m’a tout l’air d’un de ces sujets pour chercheur en mal de publication. Après avoir épuisé le sujet des failles de sécurité ils sont passés aux IA génératives. On va en bouffer des études de ce type.



Impatient de lire une étude comparative IA génératives vs Gartic Phone. :transpi:


Heureusement que le monde de la recherche ne se base pas sur ce genre de commentaires.



Avoir l’intuition d’un résultat attendu ne vaut pas démonstration.
De même l’investigation des raisons pour lequel ledit résultat est obtenu peut être source d’informations permettant de modifier les process d’apprentissage par exemple.



Exemple: l’histoire de la génétique montre comment on est passé d’une intuition de l’hérédité (les enfants ressemblent souvent aux parents) à une démonstration qui a permis de poser les bases d’une nouvelle science.

votre avatar

fofo9012 a dit:


C’est sympa de voir les photos “s’artifacter” au fil des générations, quid des générateurs de baratins : c’est le même processus, si les IA sont entrainées avec des textes générés, elles vont apprendre leurs biais et les amplifier ! Comment le verra-t-on ?


Pour le texte, je dirais que le résultat sera un appauvrissement de son modèle de langage et de la perte d’information. Un peu comme les débats de 200 caractères sur Twitter, c’est pauvre car impossible de développer l’idée.



Comme GPT est entraîné en apprenant à lire du texte, de facto il retient des concordances de mots dans un contexte (c’est ça qui fait qu’il est capable de répondre à une question). Donc au fur et à mesure, je pense qu’il va y avoir des pertes car le contexte s’appauvrira et il finira par être de plus en plus à côté de la plaque.



Par contre un traitement en mode AutoGPT ou GPT s’auto challenge au travers de plusieurs questions/réponses pour produire un résultat c’est une approche très intéressante pour justement éviter cette “consanguinité”.

votre avatar

(reply:2143599:consommateurnumérique)
l’Humain se reposant de+en+ sur ‘Chat GTP’, ça ne pas alle
r en s’arrangeant c’tte histoire !!!


“moins j’en fais..et mieux je me porte” :reflechis:

votre avatar

J’aimerais bien voir le résultat au bout de 50, 100, 1000 ou 10000 itérations…

votre avatar

Bourrique a dit:


La modélisation imite très bien la réalité. Jusqu’à la dégénérescence due à la consanguinité. :mdr2:


exactement ce que je pensais :) problème de consanguinité :D

votre avatar

xlp a dit:


[…] S’il n’y a pas de dictionnaire, on pourrait avoir des mots inventés.


Je rappelle qu’à la base, TOUS les mots sont inventés. :D

votre avatar

SebGF a dit:


La plupart des sites de vente de photos en ligne ont déjà une section “AI Generated”, donc la boucle risque d’être bouclée :D


Et les développeurs qui publient sur Github leur code généré avec Copilot :non:

votre avatar

Je pense cet “empoisonnement” est un problème qui va se poser de plus en plus dans le futur.
Ca concerne tous les secteurs où l’IA sera utilisé.




  • Génération d image : de plus en plus d images générés sur des articles de presse, réseaux sociaux, banques d images

  • Génération de texte : des articles et autres contenus générés par IA

  • Code : comme tu l’as dit, code généré sur github



Et on est encore au début, si le taux d’adoption des IA augmente avec le temps et l’amélioration des performances et des outils, le problème va s aggraver. Ça sera plus difficile d avoir un jeu de données récent et sain pour entraîner une IA

votre avatar

Si le nombre d’artefacts (ou biais, ou whatever) diminuait à chaque génération, les IA actuelles seraient en boucle permanente d’apprentissage. Et depuis le temps on aurait des IA. Et les entreprises qui améliorent leur IA ne se fatigueraient pas a collecter des données IRL si elles pouvaient simplement utiliser celles que leur IA fabrique déjà.



L’idée qu’une IA pourrait permettre de construire une meilleure version d’elle même (même de 1%) est pour l’instant de la science-fiction. Souhaitons que ca le reste…

votre avatar

(reply:2143691:consommateurnumérique)


Je ne critique pas du tout la volonté d’étudier la chose.



Seulement, de ce que je sais de l’IA, à part atteindre le “modèle parfait” qui n’a plus besoin d’amélioration (ce qui veut dire aussi qu’on ne créé plus rien, parce que “génère moi quelqu’un avec un smartphone dans la main” entraîné avec des photos d’il y a 30 ans ça serait rigolo…), les modèles devront continuer à être entraînés.



Si on commence à les entraîner massivement avec leur propre contenue biaisé… S’ils étaient “au courant” du bias, ils ne génèreraient pas… Donc ils vont s’entraîner à créer plus de biais, donc il me semble logique que le problème s’accroisse.



Question : y’a-t-il une faille dans mon raisonnement ?





votre avatar

Ton raisonnement me paraît juste. Mais il n’est pas suffisant. Je voulais juste dire que sans étude scientifique du phénomène, le marketing des sociétés travaillant avec l’IA peut aussi émettre un raisonnement qui paraît juste. Se tromper est tellement fréquent. Un raisonnement peut aussi être trompeur si on étudie pas sérieusement le sujet.

votre avatar

cyp a dit:


Et les développeurs qui publient sur Github leur code généré avec Copilot :non:


ah oui bien vu !

votre avatar

(reply:2143793:consommateurnumérique)


En gros (et je ne réagissais pas à cet article précisément), ce qui m’a choqué c’est l’apparente nouvelle renversante : entraîner les IA sur les résultats des IA cause des problèmes.



Quelqu’un aurait sorti un article disant qu’entraîner en boucle les IA améliore leur résultats, ça ça m’aurait choqué.



Je suis perturbé par le fait qu’il semble que pour certains c’est un résultat inattendu.
(Quant à ce que disent les sociétés elles-mêmes, je prends avec des pincettes tout ce qui a un conflit d’intérêt dont je suis au courant)

votre avatar

comme certains disent : “garbage in, garbage out”. Cette mousse créée pa rles département marketing des entreprises de l’inforamtique n’est fait que pour tirer à la hausse la valorisation de leurs actions. Avant il y avait le metaverse mais ça a été un flop. Le vocabulaire “IA” ou “AI” est plus accrocheur et fait un tabac, même cela reste encore bien nébuleux tout ça, alors fonçons !

votre avatar

Pour le coup l’IA génératrice, c’est loin d’être aussi nébuleux que l’était le metavers : c’est concret, ça existe, et ça se consomme. Les offres de service autour se développent ainsi que les produits qui se basent dessus (chatbot de Carrefour basé sur GPT par exemple).

votre avatar

Sous-titre alternatif : “Garbage in, garbage out” :fumer:

Les IA génératives tournent mal quand elles sont entraînées sur leurs propres données

  • Exemple sur un modèle de génération d'images

  • Autophagie et éloignement des données réelles

  • Des modèles « fous » ou juste « bugués » ?

Fermer