Common Corpus : des textes du domaine public pour entrainer des IA (génératives)

La FairIA des données

Publié dans

20/03/2024 6 minutes

des nuages de données s'échappent des cheminées de petites maisons dessinées en rang d'oignon

Une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur : Common Corpus. Pierre-Carl Langlais, co-fondateur de Pleias, nous parle de son projet.

Et si on créait un corpus de textes pour l'entrainement des IA génératives qui respecte les lois régissant le droit d'auteur ? Voilà ce qu'ont proposé des chercheurs et ingénieurs. En effet, les intelligences artificielles génératives nécessitent un entrainement sur des milliards de textes. La plupart des entreprises qui proposent ce genre d'IA ont entrainé leurs modèles de langage sur des corpus qui regroupent des textes glanés sur Internet, mais aussi, parfois, des corpus venant de « bibliothèques clandestines » comme LibGen.

Certaines entreprises sont déjà accusées devant la justice d'avoir enfreint les copyrights de certains auteurs en s'appuyant sur ces corpus de textes dont ils n'ont pas les droits. En juillet 2023 déjà, OpenAI et Meta se retrouvaient face à une plainte de plusieurs auteurs. Plus récemment, c'est NVIDIA qui était attaquée pour violation du copyright de milliers de livres.

Une autre partie des textes très utilisés vient de la base de données Common Crawl regroupant des textes moissonnés sur le web. Si la légalité de ce genre de moissonnage pour la recherche ou pour l'indexation ne fait pas de doute, il y en a plus pour des projets commerciaux d'IA générative. L’Autorité de la concurrence aborde le sujet du bout des lèvres dans sa décision contre Google.

Le procès intenté par le New York Times contre OpenAI accusant l'entreprise d'avoir utilisé des millions d'articles du journal pour l'entrainement de ses modèles nous éclairera peut-être sur la question. Mais son issue ne devrait pas arriver avant longtemps, les deux entreprises pouvant aussi conclure un accord avant même qu'elle ait lieu.

C’est dans ce contexte tendu qu’une initiative internationale menée par la startup française Pleias propose un corpus de textes du domaine public permettant d'entrainer les IA génératives tout en respectant les lois régissant les droits d'auteur.

La preuve qu'il est possible de faire sans contenu sous copyright

En collaboration avec HuggingFace, Occiglot, Eleuther, Nomic AI, mais aussi la startup d'État française Lang:IA, Pleias a rassemblé des millions de textes en anglais, mais aussi en français, en allemand, en espagnol, en néerlandais ou en italien. Tous ces projets affichent l'ambition de travailler sur des projets d'intelligence artificielle le plus ouvert possible, à la différence d'OpenAI ou de Mistral IA qui ont toutes les deux d'abord joué la carte d'une IA plus ou moins ouverte pour ensuite fermer de plus en plus leurs modèles.

- Le marketing de l’IA « ouverte »

Avec la compilation de ces millions de textes, ces entreprises pensent faire la preuve qu'il est possible d'entrainer des IA génératives tout en respectant les droits d'auteur et le Copyright. Dans sa réponse à la plainte du New York Times, OpenAI affirmait qu' « étant donné que le Copyright couvre aujourd’hui pratiquement toutes les formes d’expression humaine — y compris les articles de blog, les photographies, les messages de forum, les bouts de code de logiciel et les documents gouvernementaux — il serait impossible d’entraîner les meilleurs modèles d’IA actuels sans utiliser des documents protégés par le droit d’auteur ».

Dans un communiqué qui nous a été transmis, les participants au projet de Common Corpus lui répondent que « contrairement à ce que prétendent la plupart des grandes entreprises d'intelligence artificielle, la publication de Common Corpus vise à montrer qu'il est possible d'entraîner de grands modèles de langage sur des corpus entièrement ouverts et reproductibles, sans utiliser de contenu protégé par le Copyright provenant de Common Crawl et d'autres sources plus douteuses ».

500 milliards de mots

Les textes de Common Corpus réunissent en tout 500 milliards de mots. Pierre-Carl Langlais, co-fondateur de Pleias, explique à Next que « la version francophone de Wikipédia en contient environ deux milliards. Pour sortir un modèle actuel comme Llama, il faut l'entrainer sur 2000 et 6 000 milliards de mots, sachant qu'on peut les répéter jusqu'à quatre fois ». Common Corpus semble donc bien démontrer qu'il est possible d'entrainer les modèles d'IA générative sur des contenus non soumis au droit d'auteur ou au Copyright.

Et le projet de rassemblement de textes n'est pas fini. Pierre-Carl Langlais nous annonce que le projet n'a pas encore publié tout son potentiel : « nous sommes restés conservateurs pour l'instant en se limitant pour une partie du corpus à ce qui a été publié avant 1884, il y a deux fois 70 ans [ndlr : ce qui permet d'être largement 70 ans avant la mort des auteurs, date à laquelle un texte monte dans le domaine public] ». Il nous explique aussi que Commons Corpus pourrait être agrandi par l'agrégation des corpus en opendata accumulés depuis 10 ans.

Commons Corpus est disponible sur Hugging Face. Outre un jeu de données (410 Go) compilé par Pierre-Carl Langlais et issu des journaux américains publiés entre 1690 et 1963 rendus disponibles par la bibliothèque du Congrès, le corpus contient aussi 650 000 livres en anglais, 289 000 livres en français (3Go) et près de 3 millions de journaux en français (4Go) issus de Gallica. Mais il rassemble aussi des livres et des journaux espagnols, des textes néerlandais, italiens, allemands, portugais, danois, suédois, coréens, chinois, serbes ou grecs. Les créateurs du corpus affirment qu'il est plus qualitatif et diversifié que ceux qui se basent seulement sur les archives du web comme Common Crawl.

« Pour autant que je sache, il s'agit actuellement du plus grand ensemble de données du domaine public à ce jour pour la formation des LLM » a déclaré à Wired Stella Biderman, directrice exécutive d'EleutherAI, « c'est une ressource inestimable ».

Commentaires (8)

potn Abonné

Le 20/03/2024 à 22h 34

Je suis curieux de voir ce que ça peut donner en terme de tournures de phrases ressorties par l'IA. J'imagine qu'on aura le droit à un peu plus de "diantre" ou de "mazette" ! 😂

Dj Abonné

Le 20/03/2024 à 23h 24

#1.1

Le programme fait un bug, mais une IA ferra un pataquès

Raahhh Abonné

Le 21/03/2024 à 00h 18

#1.2

Tous les étudiants en literature ancienne en liesse "Parbleu, notre heure est arrivée. A nous les jobs de prompt engineer!"

Modifié le 21/03/2024 à 00h19

Historique des modifications :

Posté le 21/03/2024 à 00h18

Tous les étudiants en literature ancienne en liesse "Parbleu, notre heure est arrivée. A nous les job de prompt engineer!"

SebGF Abonné

Le 21/03/2024 à 07h 33

#1.4

Raahhh

A nous les jobs de ~~prompt engineer!~~

ingénieur de demandes.

grsbdl Abonné

Le 21/03/2024 à 01h 52

#1.3

Vu la date de certains ouvrages, ça risque aussi de prodiguer la pensée de l'époque, tant sur le racisme, le sexisme, le rapport à la religion, etc.
Curieux de voir ce que cela donnera.
Hâte aussi que la hype sur les LLM retombe. Ça ne produit rien de vraiment qualitatif. C'est essentiellement du moyen, voir du mauvais. Mais les LLM-bros continuent leur cirque en promettant monts et merveilles, et pour l'instant bcp de monde y crois...

Le 21/03/2024 à 10h 35

#1.5

grsbdl

Pour le coup, les LLMs sont très utiles quand bien utilisés !
C'est comme une fourchette utilisée pour couper la nourriture : souvent ça marche, mais c'est pas prévu pour ça. À l'utilisateur de l'utiliser intelligemment.

Le 21/03/2024 à 18h 30

#1.6

potn

Je confirme, bien utilisé un LLM est un très bon assistant d'écriture. Typiquement, pour reprendre la blague du style ancien des écrits utilisés pour l’entraînement, le modèle peut aider dans le cas où un personnage serait censé s'exprimer comme à telle époque, ou même d'une façon particulière.

De même, il peut aussi aider à revoir la tournure de phrases ou la cohérence d'un écrit.

Par contre, faut pas lui demander d'écrire à sa place. Même si le LLM en est capable, ça n'a aucun intérêt en dehors de produire un texte ennuyeux à mourir. Perso, je ne ressens rien à la lecture d'un texte généré par GPT ou Mixtral ou Large. L'écrit est capable de faire passer des sentiments, et on peut distinguer ceux de la personne qui l'a rédigé. Un texte généré par IA n'est qu'une suite statistique, parfaite du point de vue sémantique, mais ennuyeuse et sans émotion. C'est lisse, plat, et ça cherche même à en faire des caisses.

miles67div Abonné

Le 22/03/2024 à 15h 51

@Flock ou pas le dessin ? Si oui, pas trouvé la signature.

Common Corpus : des textes du domaine public pour entrainer des IA (génératives)

La FairIA des données

La preuve qu'il est possible de faire sans contenu sous copyright

500 milliards de mots

Tiens, en parlant de ça :

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

FAED y verse

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Schrems vs Meta, encore et encore

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Rogntudjuuu !

Sommaire de l'article

Introduction

La preuve qu'il est possible de faire sans contenu sous copyright

500 milliards de mots

Le fichier des empreintes digitales sera interconnecté avec huit autres fichiers

Le ciblage publicitaire ne peut pas utiliser des données personnelles récupérées ailleurs

Windows 11 ajoute des publicités dans le menu Démarrer, comment les supprimer

Reddit : cas d’école de la pollution par les contenus générés par IA ?

Transhumanisme, long-termisme… comment les courants « TESCREAL » influent sur le développement de l’IA

Qualcomm dévoile son Snapdragon X Plus et trois variantes du modèle Elite

Transhumanisme, long-termisme… des idéologies aux racines eugénistes ?

Corrigée depuis deux ans, une faille Windows activement exploitée par des pirates russes

La CNIL fait le bilan de son année 2023, cinquième année après RGPD

#LeBrief : TikTok suspend sa version Lite, Ariane 6 debout, enquête sur Pegasus, l’Europe et la violence numérique aux femmes

Terrorgram, la fabrique de terroristes d’extrême-droite, à coups de mèmes et de shitposts

Fiabilité des disques durs HAMR de 30 To et plus : Seagate donne des chiffres

[Màj] Le Congrès des États-Unis vote la loi obligeant ByteDance à vendre TikTok

#LeBrief : Fedora 40, anniversaire Hubble, vidéosurveillance algorithmique à Cannes, Voyager 1, Android 15 bêta 1.1

Sur GitHub et GitLab, des commentaires détournés pour stocker des malwares

[FAQ] Notre antisèche sur l’informatique quantique

L’Université d’Oxford ferme le Future of Humanity Institute dirigé par Nick Bostrom

#LeBrief : Apple rachète le français Datakalab (IA), propagande de la Russie, fin de partie pour Roccat, Proton Mail vs dark web

Europol milite pour un chiffrement de bout en bout « flexible »

Inclusion dans la tech : critiqué, le CEO de Qovery menace une internaute de poursuites

L’extension des prestataires américains devant collaborer avec la NSA fait polémique

#LeBrief : fuite chez Speedy, Rust pour Thunderbird, Saint Exupéry et PhiFire AI pour le satellite Φsat-2

Des institutions internationales s’engagent pour l’ouverture des données sur la recherche

Commentaires (8)

Historique des modifications :