des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

Common Corpus : des textes du domaine public pour entrainer des IA (génératives)

La FairIA des données

Avatar de l'auteur
Martin Clavey

Publié dans

IA et algorithmes

20/03/2024 6 minutes
8

des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

Une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur : Common Corpus. Pierre-Carl Langlais, co-fondateur de Pleias, nous parle de son projet.

Et si on créait un corpus de textes pour l'entrainement des IA génératives qui respecte les lois régissant le droit d'auteur ? Voilà ce qu'ont proposé des chercheurs et ingénieurs. En effet, les intelligences artificielles génératives nécessitent un entrainement sur des milliards de textes. La plupart des entreprises qui proposent ce genre d'IA ont entrainé leurs modèles de langage sur des corpus qui regroupent des textes glanés sur Internet, mais aussi, parfois, des corpus venant de « bibliothèques clandestines » comme LibGen.

Certaines entreprises sont déjà accusées devant la justice d'avoir enfreint les copyrights de certains auteurs en s'appuyant sur ces corpus de textes dont ils n'ont pas les droits. En juillet 2023 déjà, OpenAI et Meta se retrouvaient face à une plainte de plusieurs auteurs. Plus récemment, c'est NVIDIA qui était attaquée pour violation du copyright de milliers de livres.

Une autre partie des textes très utilisés vient de la base de données Common Crawl regroupant des textes moissonnés sur le web. Si la légalité de ce genre de moissonnage pour la recherche ou pour l'indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d'IA générative. L’Autorité de la concurrence aborde le sujet du bout des lèvres dans sa décision contre Google.

Le procès intenté par le New York Times contre OpenAI accusant l'entreprise d'avoir utilisé des millions d'articles du journal pour l'entrainement de ses modèles nous éclairera peut-être sur la question. Mais son issue ne devrait pas arriver avant longtemps, les deux entreprises pouvant aussi conclure un accord avant même qu'elle ait lieu.

C’est dans ce contexte tendu qu’une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur.

La preuve qu'il est possible de faire sans contenu sous copyright

En collaboration avec HuggingFace, Occiglot, Eleuther, Nomic AI, mais aussi la startup d'État française Lang:IA, Pleias a rassemblé des millions de textes en anglais, mais aussi en français, en allemand, en espagnol, en néerlandais ou en italien. Tous ces projets affichent l'ambition de travailler sur des projets d'intelligence artificielle le plus ouvert possible, à la différence d'OpenAI ou de Mistral IA qui ont toutes les deux d'abord joué la carte d'une IA plus ou moins ouverte pour ensuite fermer de plus en plus leurs modèles.

Avec la compilation de ces millions de textes, ces entreprises pensent faire la preuve qu'il est possible d'entrainer des IA génératives tout en respectant les droits d'auteur et le Copyright. Dans sa réponse à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le Copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine — y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux — il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur ».

Dans un communiqué qui nous a été transmis, les participants au projet de Common Corpus lui répondent que « contrairement à ce que prétendent la plupart des grandes entreprises d'intelligence artificielle, la publication de Common Corpus vise à montrer qu'il est possible d'entraîner de grands modèles de langage sur des corpus entièrement ouverts et reproductibles, sans utiliser de contenu protégé par le Copyright provenant de Common Crawl et d'autres sources plus douteuses ».

500 milliards de mots

Les textes de Common Corpus réunissent en tout 500 milliards de mots. Pierre-Carl Langlais, co-fondateur de Pleias, explique à Next que « la version francophone de Wikipédia en contient environ deux milliards. Pour sortir un modèle actuel comme Llama, il faut l'entrainer sur 2000 et 6 000 milliards de mots, sachant qu'on peut les répéter jusqu'à quatre fois ». Common Corpus semble donc bien démontrer qu'il est possible d'entrainer les modèles d'IA générative sur des contenus non soumis au droit d'auteur ou au Copyright.

Et le projet de rassemblement de textes n'est pas fini. Pierre-Carl Langlais nous annonce que le projet n'a pas encore publié tout son potentiel : « nous sommes restés conservateurs pour l'instant en se limitant pour une partie du corpus à ce qui a été publié avant 1884, il y a deux fois 70 ans [ndlr : ce qui permet d'être largement 70 ans avant la mort des auteurs, date à laquelle un texte monte dans le domaine public] ». Il nous explique aussi que Commons Corpus pourrait être agrandi par l'agrégation des corpus en opendata accumulés depuis 10 ans.

Commons Corpus est disponible sur Hugging Face. Outre un jeu de données (410 Go) compilé par Pierre-Carl Langlais et issu des journaux américains publiés entre 1690 et 1963 rendus disponibles par la bibliothèque du Congrès, le corpus contient aussi 650 000 livres en anglais, 289 000 livres en français (3Go) et près de 3 millions de journaux en français (4Go) issus de Gallica. Mais il rassemble aussi des livres et des journaux espagnols, des textes néerlandais, italiens, allemands, portugais, danois, suédois, coréens, chinois, serbes ou grecs. Les créateurs du corpus affirment qu'il est plus qualitatif et diversifié que ceux qui se basent seulement sur les archives du web comme Common Crawl.

« Pour autant que je sache, il s'agit actuellement du plus grand ensemble de données du domaine public à ce jour pour la formation des LLM » a déclaré à Wired Stella Biderman, directrice exécutive d'EleutherAI, « c'est une ressource inestimable ».

Écrit par Martin Clavey

Tiens, en parlant de ça :

Sommaire de l'article

Introduction

La preuve qu'il est possible de faire sans contenu sous copyright

500 milliards de mots

next n'a pas de brief le week-end

Le Brief ne travaille pas le week-end.
C'est dur, mais c'est comme ça.
Allez donc dans une forêt lointaine,
Éloignez-vous de ce clavier pour une fois !

Fermer

Commentaires (8)


Je suis curieux de voir ce que ça peut donner en terme de tournures de phrases ressorties par l'IA. J'imagine qu'on aura le droit à un peu plus de "diantre" ou de "mazette" ! 😂
Le programme fait un bug, mais une IA ferra un pataquès
Tous les étudiants en literature ancienne en liesse "Parbleu, notre heure est arrivée. A nous les jobs de prompt engineer!"

Modifié le 21/03/2024 à 00h19

Historique des modifications :

Posté le 21/03/2024 à 00h18


Tous les étudiants en literature ancienne en liesse "Parbleu, notre heure est arrivée. A nous les job de prompt engineer!"

Raahhh

Tous les étudiants en literature ancienne en liesse "Parbleu, notre heure est arrivée. A nous les jobs de prompt engineer!"

A nous les jobs de prompt engineer!


ingénieur de demandes. :cap:
Vu la date de certains ouvrages, ça risque aussi de prodiguer la pensée de l'époque, tant sur le racisme, le sexisme, le rapport à la religion, etc.
Curieux de voir ce que cela donnera.
Hâte aussi que la hype sur les LLM retombe. Ça ne produit rien de vraiment qualitatif. C'est essentiellement du moyen, voir du mauvais. Mais les LLM-bros continuent leur cirque en promettant monts et merveilles, et pour l'instant bcp de monde y crois...

grsbdl

Vu la date de certains ouvrages, ça risque aussi de prodiguer la pensée de l'époque, tant sur le racisme, le sexisme, le rapport à la religion, etc.
Curieux de voir ce que cela donnera.
Hâte aussi que la hype sur les LLM retombe. Ça ne produit rien de vraiment qualitatif. C'est essentiellement du moyen, voir du mauvais. Mais les LLM-bros continuent leur cirque en promettant monts et merveilles, et pour l'instant bcp de monde y crois...
Pour le coup, les LLMs sont très utiles quand bien utilisés !
C'est comme une fourchette utilisée pour couper la nourriture : souvent ça marche, mais c'est pas prévu pour ça. À l'utilisateur de l'utiliser intelligemment.

potn

Pour le coup, les LLMs sont très utiles quand bien utilisés !
C'est comme une fourchette utilisée pour couper la nourriture : souvent ça marche, mais c'est pas prévu pour ça. À l'utilisateur de l'utiliser intelligemment.
Je confirme, bien utilisé un LLM est un très bon assistant d'écriture. Typiquement, pour reprendre la blague du style ancien des écrits utilisés pour l’entraînement, le modèle peut aider dans le cas où un personnage serait censé s'exprimer comme à telle époque, ou même d'une façon particulière.

De même, il peut aussi aider à revoir la tournure de phrases ou la cohérence d'un écrit.

Par contre, faut pas lui demander d'écrire à sa place. Même si le LLM en est capable, ça n'a aucun intérêt en dehors de produire un texte ennuyeux à mourir. Perso, je ne ressens rien à la lecture d'un texte généré par GPT ou Mixtral ou Large. L'écrit est capable de faire passer des sentiments, et on peut distinguer ceux de la personne qui l'a rédigé. Un texte généré par IA n'est qu'une suite statistique, parfaite du point de vue sémantique, mais ennuyeuse et sans émotion. C'est lisse, plat, et ça cherche même à en faire des caisses.
@Flock ou pas le dessin ? Si oui, pas trouvé la signature.