La BNF : un réservoir de données pour les IA
Bibliathèque
Un consortium des trois startups de l'IA générative Artefact, Mistral AI et Giskard, en partenariat avec la Bibliothèque nationale de France (BNF) et l'Institut national de l'audiovisuel (INA), a été sélectionné par Bpifrance après un appel à projets nommé « Communs numériques pour l’intelligence artificielle générative ». L'idée est d'utiliser les données du domaine public rassemblées par ces deux institutions pour entrainer les IA de ces entreprises, sans pour autant leur en laisser l'exclusivité, nous explique la bibliothèque.
Le 27 juin à 14h24
7 min
IA et algorithmes
IA
En mars dernier, les startups françaises d'IA générative Artefact, Mistral AI et Giskard, en se rassemblant dans le consortium ARGIMI, ont obtenu un financement de Bpifrance. Objectif, mettre en œuvre un projet bâti en partenariat avec deux très importantes institutions de la culture française : la Bibliothèque nationale de France (BNF) et l'Institut national de l'audiovisuel (INA), expliquait la semaine dernière Politico.
Le projet financé ici, suite à un appel lancé en juin par Bpifrance, est de profiter des importants fonds conservés dans ces établissements. Leurs grands modèles de langage pourront être entrainés sur des masses de données venant notamment du domaine public, et très bien étiquetées, pour créer « un modèle en accessibilité ouverte utile à tous ».
Des outils « communs » d'IA
Le consortium veut rassembler des contenus libres de droit répertoriés par ces deux institutions. « L'idée est de créer des outils "communs" d'intelligence artificielle », nous explique la BNF. L'institution ajoute que « le monde a redécouvert que toutes les bibliothèques nationales comme la BNF sont des grands réservoirs de données. Le nôtre est probablement le plus grand réservoir de données propres et qualifiées au monde. D'un seul coup, ça intéresse donc nos petits camarades qui travaillent sur l'intelligence artificielle parce qu'au-delà du logiciel, il faut de la donnée pour les entrainer ».
Interrogée par Politico, l'INA explique de son côté qu'elle va « avancer sur une clarification juridique et discuter avec les ayants droit ». Peu d'archives vidéo de l'institution sont aujourd'hui dans le domaine public.
De leur côté, les trois startups du consortium communiquent toutes sur des valeurs d'ouverture, mais il est difficile de savoir jusqu'où. Par exemple, Mistral, qui vantait le modèle « open source », n'a pas publié son modèle « Large ». Elle a diffusé Codestral, son modèle consacré à la génération de code informatique, sous une licence qui ne permet pas d'utiliser le modèle en production. Elle ne détaille pas non plus les jeux de données sur lesquels elle s'appuie au nom du "secret des affaires".
Cela rappelle une première initiative internationale nommée « Common Corpus », mise en place par la startup Pleias qui utilise déjà les données de la BNF.
La BNF, un corpus énorme
Les trois startups voient dans ces institutions une bonne occasion d'utiliser de données déjà toutes prêtes. Gallica, la bibliothèque numérique de la BNF, réunit plus de 10 millions de documents et la BNF fait aussi un travail d'archivage du numérique semblable à celui d'Internet Archive (sans pour autant y donner accès depuis internet).
Un responsable de l'institution explique à Next que « le corpus de la BNF est énorme. Quand je dis énorme, c'est plus que ce qu'a besoin l'IA. Donc, nous n'allons pas donner l'ensemble de notre corpus à ce projet. Pour l'instant, son corpus n'est pas totalement défini, même s'il y a déjà des sous-ensembles préparés. Le travail de recherche va nous permettre de définir des ensembles utiles. Nous allons ensuite voir aussi comment nous pouvons les constituer, ça ne se fait pas en appuyant sur un bouton ».
Mais l'établissement d'un accord avec ce consortium ne veut pas dire que celui-ci aura l'exclusivité de l'accès de ses données : « nous travaillons régulièrement avec des associations et beaucoup avec des laboratoires de recherche. Il n'y a pas d'exclusivité, tout ça est possible dans des conditions différentes en fonction des demandes et des besoins, des projets et de ce que les personnes veulent en faire, commercial, non commercial, de la recherche ou pas... », rassure la bibliothèque.
Concernant les sommes investies, le coût de l'entièreté du projet est confidentiel. Interrogée, la BNF ne souhaite pas communiquer sur celles qui la concernent non plus. L'amélioration du système d'OCR de la bibliothèque est aussi prévue dans ce partenariat.
Un autre projet plus important encore en interne
Mais la bibliothèque précise que ce n'est pas son plus gros investissement dans l'IA : « nous avons lancé un projet de recherche d'images dans l'ensemble des dizaines, voire centaines, de millions d'images présentes dans les documents numérisés de Gallica, en cours de développement utilisable d'ici un an ».
Ce projet, nommé Gallica Images, a pour objectif de rendre les fonds iconographiques plus accessibles en « industrialisant à grande échelle une technologie de segmentation des images (repérage à l’intérieur des livres, presse et revues) et de caractérisation (format, couleurs, typologie…) par intelligence artificielle ».
Pour l'entrainement des IA, la qualité des données est primordiale. La BNF explique que les données qualifiées (c'est-à-dire étiquetées), sont « le principe des bibliothèques. Notre obsession, c'est de ranger, qualifier, définir, décrire… ».
Un étiquetage des données plus éthique
Cette approche a aussi une résonance éthique dans la manière de collecter et d'étiqueter les données. Alors qu'une bonne partie de ce travail nécessaire à l'IA est effectué à bas coût dans des pays où les travailleurs se plaignent que leurs conditions de travail « s’apparentent à de l’esclavage moderne », la BNF nous assure que « notre corpus n'est effectivement pas fabriqué dans des pays du sud, mais en France par des agents publics de la BNF. Nous n'avons pas de prestataire pour signaler et cataloguer ».
Elle rajoute que « l'exemple de souveraineté numérique le plus fort est celui de la Bibliothèque nationale de France. Nous sommes très en avance sur la numérisation par rapport à beaucoup d'autres bibliothèques dans le monde. La BNF représente le budget d'établissement le plus important du ministère de la Culture, mais il y a des raisons : nous faisons encore un travail industriel qui demande de la main d'œuvre ».
La BNF : un réservoir de données pour les IA
-
Des outils « communs » d'IA
-
La BNF, un corpus énorme
-
Un autre projet plus important encore en interne
-
Un étiquetage des données plus éthique
Commentaires (6)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 27/06/2024 à 16h53
Mais c'est une très bonne chose que la BNF utilise et monétise son fond.
Le 28/06/2024 à 08h30
Le 28/06/2024 à 11h15
Le 01/07/2024 à 06h26
Bref apprendre un style très soutenu n'est pas un problème, il suffira t'ajouter un module "écrit en phonétique avec plein de fautes" pour faire plus djeun's en sortie.
Le 27/06/2024 à 21h40
Le 28/06/2024 à 07h39
Bon, plus qu'à attendre que le ministère de la culture se sorte les doigts pour définir les modalités de dépôt individuel des livres numériques et mes trucs pourront en faire partie.