Common Corpus : des textes du domaine public pour entrainer des IA (génératives)
La FairIA des données
Une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur : Common Corpus. Pierre-Carl Langlais, co-fondateur de Pleias, nous parle de son projet.
Le 20 mars à 17h53
6 min
IA et algorithmes
IA
Et si on créait un corpus de textes pour l'entrainement des IA génératives qui respecte les lois régissant le droit d'auteur ? Voilà ce qu'ont proposé des chercheurs et ingénieurs. En effet, les intelligences artificielles génératives nécessitent un entrainement sur des milliards de textes. La plupart des entreprises qui proposent ce genre d'IA ont entrainé leurs modèles de langage sur des corpus qui regroupent des textes glanés sur Internet, mais aussi, parfois, des corpus venant de « bibliothèques clandestines » comme LibGen.
Certaines entreprises sont déjà accusées devant la justice d'avoir enfreint les copyrights de certains auteurs en s'appuyant sur ces corpus de textes dont ils n'ont pas les droits. En juillet 2023 déjà, OpenAI et Meta se retrouvaient face à une plainte de plusieurs auteurs. Plus récemment, c'est NVIDIA qui était attaquée pour violation du copyright de milliers de livres.
Une autre partie des textes très utilisés vient de la base de données Common Crawl regroupant des textes moissonnés sur le web. Si la légalité de ce genre de moissonnage pour la recherche ou pour l'indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d'IA générative. L’Autorité de la concurrence aborde le sujet du bout des lèvres dans sa décision contre Google.
Le procès intenté par le New York Times contre OpenAI accusant l'entreprise d'avoir utilisé des millions d'articles du journal pour l'entrainement de ses modèles nous éclairera peut-être sur la question. Mais son issue ne devrait pas arriver avant longtemps, les deux entreprises pouvant aussi conclure un accord avant même qu'elle ait lieu.
- Le New York Times attaque OpenAI et Microsoft pour violation du Copyright
- Plainte pour violation du Copyright : OpenAI répond au New York Times
- Le NY Times répond aux accusations de hacking d’OpenAI
C’est dans ce contexte tendu qu’une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur.
La preuve qu'il est possible de faire sans contenu sous copyright
En collaboration avec HuggingFace, Occiglot, Eleuther, Nomic AI, mais aussi la startup d'État française Lang:IA, Pleias a rassemblé des millions de textes en anglais, mais aussi en français, en allemand, en espagnol, en néerlandais ou en italien. Tous ces projets affichent l'ambition de travailler sur des projets d'intelligence artificielle le plus ouvert possible, à la différence d'OpenAI ou de Mistral IA qui ont toutes les deux d'abord joué la carte d'une IA plus ou moins ouverte pour ensuite fermer de plus en plus leurs modèles.
Avec la compilation de ces millions de textes, ces entreprises pensent faire la preuve qu'il est possible d'entrainer des IA génératives tout en respectant les droits d'auteur et le Copyright. Dans sa réponse à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le Copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine — y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux — il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le copyright ».
Dans un communiqué qui nous a été transmis, les participants au projet de Common Corpus lui répondent que « contrairement à ce que prétendent la plupart des grandes entreprises d'intelligence artificielle, la publication de Common Corpus vise à montrer qu'il est possible d'entraîner de grands modèles de langage sur des corpus entièrement ouverts et reproductibles, sans utiliser de contenu protégé par le Copyright provenant de Common Crawl et d'autres sources plus douteuses ».
500 milliards de mots
Les textes de Common Corpus réunissent en tout 500 milliards de mots. Pierre-Carl Langlais, co-fondateur de Pleias, explique à Next que « la version francophone de Wikipédia en contient environ deux milliards. Pour sortir un modèle actuel comme Llama, il faut l'entrainer sur 2000 et 6 000 milliards de mots, sachant qu'on peut les répéter jusqu'à quatre fois ». Common Corpus semble donc bien démontrer qu'il est possible d'entrainer les modèles d'IA générative sur des contenus non soumis au droit d'auteur ou au Copyright.
Et le projet de rassemblement de textes n'est pas fini. Pierre-Carl Langlais nous annonce que le projet n'a pas encore publié tout son potentiel : « nous sommes restés conservateurs pour l'instant en se limitant pour une partie du corpus à ce qui a été publié avant 1884, il y a deux fois 70 ans [ndlr : ce qui permet d'être largement 70 ans avant la mort des auteurs, date à laquelle un texte monte dans le domaine public] ». Il nous explique aussi que Commons Corpus pourrait être agrandi par l'agrégation des corpus en opendata accumulés depuis 10 ans.
Commons Corpus est disponible sur Hugging Face. Outre un jeu de données (410 Go) compilé par Pierre-Carl Langlais et issu des journaux américains publiés entre 1690 et 1963 rendus disponibles par la bibliothèque du Congrès, le corpus contient aussi 650 000 livres en anglais, 289 000 livres en français (3Go) et près de 3 millions de journaux en français (4Go) issus de Gallica. Mais il rassemble aussi des livres et des journaux espagnols, des textes néerlandais, italiens, allemands, portugais, danois, suédois, coréens, chinois, serbes ou grecs. Les créateurs du corpus affirment qu'il est plus qualitatif et diversifié que ceux qui se basent seulement sur les archives du web comme Common Crawl.
« Pour autant que je sache, il s'agit actuellement du plus grand ensemble de données du domaine public à ce jour pour la formation des LLM » a déclaré à Wired Stella Biderman, directrice exécutive d'EleutherAI, « c'est une ressource inestimable ».
Common Corpus : des textes du domaine public pour entrainer des IA (génératives)
-
La preuve qu'il est possible de faire sans contenu sous copyright
-
500 milliards de mots
Commentaires (8)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 20/03/2024 à 22h34
Le 20/03/2024 à 23h24
Modifié le 21/03/2024 à 00h19
Le 21/03/2024 à 07h33
Le 21/03/2024 à 01h52
Curieux de voir ce que cela donnera.
Hâte aussi que la hype sur les LLM retombe. Ça ne produit rien de vraiment qualitatif. C'est essentiellement du moyen, voir du mauvais. Mais les LLM-bros continuent leur cirque en promettant monts et merveilles, et pour l'instant bcp de monde y crois...
Le 21/03/2024 à 10h35
C'est comme une fourchette utilisée pour couper la nourriture : souvent ça marche, mais c'est pas prévu pour ça. À l'utilisateur de l'utiliser intelligemment.
Le 21/03/2024 à 18h30
De même, il peut aussi aider à revoir la tournure de phrases ou la cohérence d'un écrit.
Par contre, faut pas lui demander d'écrire à sa place. Même si le LLM en est capable, ça n'a aucun intérêt en dehors de produire un texte ennuyeux à mourir. Perso, je ne ressens rien à la lecture d'un texte généré par GPT ou Mixtral ou Large. L'écrit est capable de faire passer des sentiments, et on peut distinguer ceux de la personne qui l'a rédigé. Un texte généré par IA n'est qu'une suite statistique, parfaite du point de vue sémantique, mais ennuyeuse et sans émotion. C'est lisse, plat, et ça cherche même à en faire des caisses.
Le 22/03/2024 à 15h51