BLOOM : l’ambitieux modèle de langage de l’open science
Flower power
Le 18 octobre 2022 à 14h58
5 min
Sciences et espace
Sciences
Si l'annonce de la sortie cet été de BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) n'a pas fait un grand « Blam ! » médiatique, ce modèle de langage pourrait changer des choses dans le milieu de l'intelligence artificielle destinée aux textes.
Depuis la publication du modèle de langage GPT-3 en 2020, l'enjeu autour de ces outils d'intelligence artificielle permettant de créer des textes très bien structurés dans de nombreuses langues est devenu très important. Pour ne pas laisser la main mise aux seuls GAFAM, la startup Hugging Face a réussi à rallier un millier de chercheurs et chercheuses pour proposer BLOOM, une solution « open science » grâce aux moyens publics français du ministère de l'enseignement supérieur et de la recherche et du CNRS.
« Don't be evil », bis repetita
En 2020, lors de sa présentation, GPT-3 fait figure de révolution dans le milieu du traitement automatique des langues. Son réseau de neurones de 175 milliards de paramètres a généré un modèle d'intelligence artificielle permettant d'obtenir des textes dont il est très difficile de déterminer qu'ils n'ont pas été écrit par un humain.
GPT-3 a été développé au sein d'OpenAI, une organisation d'abord fondée sous statut « non-profit » par Elon Musk, le chercheur en informatique Ilya Sutskever et des investisseurs comme Sam Altman. Mais rapidement, le projet a changé de statut.
C'est même un an avant l'annonce concernant GPT-3 qu'OpenAI a décidé de passer d'une structure « non-profit » à ce qu'ils ont appelé « capped-profit company », qu'on pourrait traduire par « entreprise à bénéfices plafonnés », pour attirer les investisseurs. Et ça a marché puisqu'en 2019, Microsoft a investi 1 milliard de dollars dans le projet et mis à sa disposition un des plus gros supercalculateurs de l'époque pour élaborer le modèle.
Mais après l'annonce en grande pompe de la création du modèle, OpenAI a vendu une licence exclusive de son utilisation à Microsoft, laissant aux autres utilisateurs potentiels un simple accès via une API, forcément limitée. Ce, sans diffuser le modèle, position contradictoire à ce qui est annoncé dans le nom lui-même d'OpenAI.
Le milieu du traitement automatique des langues est pourtant impressionné par les performances du modèle GPT-3. En 2021, Dall·e 2 bluffe tout le monde en utilisant une version de GPT-3 avec 3,5 milliards de paramètres pour génèrer des images à partir d’un texte. Forte de ce succès, OpenAI a aussi collaboré avec Github pour développer Copilot, son outil d'aide à l'écriture de code basé sur Codex, une version adaptée de GPT-3.
Des critiques peu appréciées
Mais les modèles de langage et GPT-3 ont aussi essuyé des critiques. Les chercheuses Emily M. Bender, Timnit Gebru, Angelina McMillan-Majoret Margaret Mitchell ont notamment publié un article scientifique posant la question des dangers de ce genre d'algorithmes.
Les trois principaux risques pointés étaient l'énergie énorme que peut consommer la création de ce genre de modèles, leur coût important ne laissant la place qu'à de très gros investisseurs, et enfin les biais, notamment racistes et sexistes, qu'ils pouvaient embarquer suivant les données avec lesquelles ils étaient entraÎnés. Cet article a d'ailleurs coûté à Timnit Gebru et Margaret Mitchell, selon elles (ici et là), leur place au sein du laboratoire d'éthique de l'intelligence artificielle de Google.
BLOOM, de la véritable open science ?
C'est dans ce contexte que la startup Hugging Face a lancé au printemps 2021 le projet BigScience proposant aux spécialistes du domaine de créer un projet similaire à GPT-3, mais en partant de principes de collaborations scientifiques beaucoup plus clairs.
Le succès de l'appel est assez évident puisqu'un millier de chercheurs y ont répondu. Des institutions comme le CNRS et Inria ont apporté leurs compétences et leur matériel, et des entreprises comme SalesForce ont aussi collaboré. Hugging Face a également recruté opportunément l'une des autrices de l'article critique, Margaret Mitchell, au cours de cette même année.
Résultat : un an et trois mois et demi de calculs sur le supercalculateur Jean Zay du CNRS, le projet annonçait la création du modèle BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) en juillet dernier. Et contrairement à celui d'OpenAI, le modèle BLOOM est disponible en ligne.
L'article scientifique est aussi disponible avec les commentaires des chercheurs qui l'ont relu, saluant notamment la démarche éthique du projet. BLOOM est distribué avec une licence qui se veut « responsable » prohibant explicitement les usages malveillants du modèle.
Techniquement, le calcul de BLOOM a nécessité 384 GPU A100 avec 80 Go de mémoire et environ 1 million d'heures de calculs. Le projet s'est appuyé notamment sur la bibliothèque d'optimisation d'entrainement du deeplearning Deepspeed (ironiquement dévelopée par une équipe de Microsoft) et le framework Megatron-LM de NVIDIA et a été entrainé sur 1,5 To de données venant de 46 langages (contrairement aux 59 qu'annonce leur visuel), la plus grande partie venant de langues indo-européennes, mais aussi chino-tibétaines, afro-asiatiques et 10,8 % de code.
Un nouveau projet nommé « BigCode » a d'ailleurs été lancé pour travailler autour des langages informatiques et proposer une alternative au Codex d'OpenAI.
Une démo de BLOOM est accessible sur le site de Hugging Face. Reste à savoir maintenant si la structure créée autour de BLOOM et promouvant l' « open science » défendra réellement cet aspect essentiel du projet. La publication du modèle, du dispositif et la démarche en elle-même semblent apporter une certaine garantie.
BLOOM : l’ambitieux modèle de langage de l’open science
-
« Don't be evil », bis repetita
-
Des critiques peu appréciées
-
BLOOM, de la véritable open science ?
Commentaires (6)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 18/10/2022 à 17h58
Pour l’Open AI , GPT-3 certains Commencent a sentir les effets surtout dans les études supérieures ou des étudiants s’en servent pour écrire leurs devoirs
Le 18/10/2022 à 19h10
Super projet
Dans les modèles ouverts il faut aussi mentionner :
Whisper de OpenAI, qui change la donne en terme de reconnaissance vocale (si votre entreprise paye pour un service de reconnaissance vocale envisagez d’utiliser Whisper à la place).
Stable Diffusion pour la génération d’images, le fait d’utiliser le modèle localement permet de désactiver la censure parfois pénible imposée par les services en ligne.
Le 18/10/2022 à 20h27
Effectivement Whisper est super impressionnant. Je l’ai utilisé une paire de fois à titre perso pour transcrire l’audio de contenus anglophones sur lesquels j’avais des difficultés à comprendre certains passages.
Et il marche très bien en français aussi.
Le 19/10/2022 à 11h06
Au passage quelqu’un connait un modele/application libre qui donne des resultats de bonne qualité pour du text to speech ? Ou eventuellement qui s’entraine sur la voix d’une personne et l’imite après pour le text to speech ?
Le 19/10/2022 à 11h13
Les droits restreints sont disponibles sur https://hf.space/static/bigscience/license/index.html
Ils sont assez nombreux :
You agree not to use the Model or Derivatives of the Model:
Je suis pas sûr que ce soit facile de tous les respecter, même en son âme et conscience.
En tout cas, un bon Richard Stallman qui passerait par là dirait que c’est pas libre
Le 21/10/2022 à 09h20
Merci pour l’article, super intéressant !