BLOOM : l’ambitieux modèle de langage de l’open science

Le 18 Octobre 2022 à 14h58

Abonnez-vous pour tout dévorer et ne rien manquer.

Abonnez-vous

Si l'annonce de la sortie cet été de BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) n'a pas fait un grand « Blam ! » médiatique, ce modèle de langage pourrait changer des choses dans le milieu de l'intelligence artificielle destinée aux textes.

Depuis la publication du modèle de langage GPT-3 en 2020, l'enjeu autour de ces outils d'intelligence artificielle permettant de créer des textes très bien structurés dans de nombreuses langues est devenu très important. Pour ne pas laisser la main mise aux seuls GAFAM, la startup Hugging Face a réussi à rallier un millier de chercheurs et chercheuses pour proposer BLOOM, une solution « open science » grâce aux moyens publics français du ministère de l'enseignement supérieur et de la recherche et du CNRS.

« Don't be evil », bis repetita

En 2020, lors de sa présentation, GPT-3 fait figure de révolution dans le milieu du traitement automatique des langues. Son réseau de neurones de 175 milliards de paramètres a généré un modèle d'intelligence artificielle permettant d'obtenir des textes dont il est très difficile de déterminer qu'ils n'ont pas été écrit par un humain.

GPT-3 a été développé au sein d'OpenAI, une organisation d'abord fondée sous statut « non-profit » par Elon Musk, le chercheur en informatique Ilya Sutskever et des investisseurs comme Sam Altman. Mais rapidement, le projet a changé de statut.

OpenAI, une alliance ouverte pour la recherche sur l'intelligence artificielle

C'est même un an avant l'annonce concernant GPT-3 qu'OpenAI a décidé de passer d'une structure « non-profit » à ce qu'ils ont appelé « capped-profit company », qu'on pourrait traduire par « entreprise à bénéfices plafonnés », pour attirer les investisseurs. Et ça a marché puisqu'en 2019, Microsoft a investi 1 milliard de dollars dans le projet et mis à sa disposition un des plus gros supercalculateurs de l'époque pour élaborer le modèle.

Mais après l'annonce en grande pompe de la création du modèle, OpenAI a vendu une licence exclusive de son utilisation à Microsoft, laissant aux autres utilisateurs potentiels un simple accès via une API, forcément limitée. Ce, sans diffuser le modèle, position contradictoire à ce qui est annoncé dans le nom lui-même d'OpenAI.

Le milieu du traitement automatique des langues est pourtant impressionné par les performances du modèle GPT-3. En 2021, Dall·e 2 bluffe tout le monde en utilisant une version de GPT-3 avec 3,5 milliards de paramètres pour génèrer des images à partir d’un texte. Forte de ce succès, OpenAI a aussi collaboré avec Github pour développer Copilot, son outil d'aide à l'écriture de code basé sur Codex, une version adaptée de GPT-3.

DALL·E 2 génère des images à partir d’un texte : un résultat bluffant, des défis juridiques

Des critiques peu appréciées

Mais les modèles de langage et GPT-3 ont aussi essuyé des critiques. Les chercheuses Emily M. Bender, Timnit Gebru, Angelina McMillan-Majoret Margaret Mitchell ont notamment publié un article scientifique posant la question des dangers de ce genre d'algorithmes.

Les trois principaux risques pointés étaient l'énergie énorme que peut consommer la création de ce genre de modèles, leur coût important ne laissant la place qu'à de très gros investisseurs, et enfin les biais, notamment racistes et sexistes, qu'ils pouvaient embarquer suivant les données avec lesquelles ils étaient entraÎnés. Cet article a d'ailleurs coûté à Timnit Gebru et Margaret Mitchell, selon elles (ici et là), leur place au sein du laboratoire d'éthique de l'intelligence artificielle de Google.

BLOOM, de la véritable open science ?

C'est dans ce contexte que la startup Hugging Face a lancé au printemps 2021 le projet BigScience proposant aux spécialistes du domaine de créer un projet similaire à GPT-3, mais en partant de principes de collaborations scientifiques beaucoup plus clairs.

Le succès de l'appel est assez évident puisqu'un millier de chercheurs y ont répondu. Des institutions comme le CNRS et Inria ont apporté leurs compétences et leur matériel, et des entreprises comme SalesForce ont aussi collaboré. Hugging Face a également recruté opportunément l'une des autrices de l'article critique, Margaret Mitchell, au cours de cette même année.

Résultat : un an et trois mois et demi de calculs sur le supercalculateur Jean Zay du CNRS, le projet annonçait la création du modèle BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) en juillet dernier. Et contrairement à celui d'OpenAI, le modèle BLOOM est disponible en ligne.

L'article scientifique est aussi disponible avec les commentaires des chercheurs qui l'ont relu, saluant notamment la démarche éthique du projet. BLOOM est distribué avec une licence qui se veut « responsable » prohibant explicitement les usages malveillants du modèle.

Langages utilisés pour l'entrainement de BLOOM

Techniquement, le calcul de BLOOM a nécessité 384 GPU A100 avec 80 Go de mémoire et environ 1 million d'heures de calculs. Le projet s'est appuyé notamment sur la bibliothèque d'optimisation d'entrainement du deeplearning Deepspeed (ironiquement dévelopée par une équipe de Microsoft) et le framework Megatron-LM de NVIDIA et a été entrainé sur 1,5 To de données venant de 46 langages (contrairement aux 59 qu'annonce leur visuel), la plus grande partie venant de langues indo-européennes, mais aussi chino-tibétaines, afro-asiatiques et 10,8 % de code.

Un nouveau projet nommé « BigCode » a d'ailleurs été lancé pour travailler autour des langages informatiques et proposer une alternative au Codex d'OpenAI.

Une démo de BLOOM est accessible sur le site de Hugging Face. Reste à savoir maintenant si la structure créée autour de BLOOM et promouvant l' « open science » défendra réellement cet aspect essentiel du projet. La publication du modèle, du dispositif et la démarche en elle-même semblent apporter une certaine garantie.

In any way that violates any applicable national, federal, state, local or international law or regulation; For the purpose of exploiting, harming or attempting to exploit or harm minors in any way; To generate or disseminate verifiably false information with the purpose of harming others; To generate or disseminate personal identifiable information that can be used to harm an individual; To generate or disseminate information or content, in any context (e.g. posts, articles, tweets, chatbots or other kinds of automated bots) without expressly and intelligibly disclaiming that the text is machine generated; To defame, disparage or otherwise harass others; To impersonate or attempt to impersonate others; For fully automated decision making that adversely impacts an individual’s legal rights or otherwise creates or modifies a binding, enforceable obligation; For any use intended to or which has the effect of discriminating against or harming individuals or groups based on online or offline social behavior or known or predicted personal or personality characteristics To exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm; For any use intended to or which has the effect of discriminating against individuals or groups based on legally protected characteristics or categories; To provide medical advice and medical results interpretation; To generate or disseminate information for the purpose to be used for administration of justice, law enforcement, immigration or asylum processes, such as predicting an individual will commit fraud/crime commitment (e.g. by text profiling, drawing causal relationships between assertions made in documents, indiscriminate and arbitrarily-targeted use).

Commentaires (6)

Stephane_A

Le 18/10/2022 à 17h58

Pour l’Open AI , GPT-3 certains Commencent a sentir les effets surtout dans les études supérieures ou des étudiants s’en servent pour écrire leurs devoirs

wagaf Abonné

Le 18/10/2022 à 19h10

Super projet

Dans les modèles ouverts il faut aussi mentionner :

Whisper de OpenAI, qui change la donne en terme de reconnaissance vocale (si votre entreprise paye pour un service de reconnaissance vocale envisagez d’utiliser Whisper à la place).

Stable Diffusion pour la génération d’images, le fait d’utiliser le modèle localement permet de désactiver la censure parfois pénible imposée par les services en ligne.

SebGF Abonné

Le 18/10/2022 à 20h27

#2.1

Effectivement Whisper est super impressionnant. Je l’ai utilisé une paire de fois à titre perso pour transcrire l’audio de contenus anglophones sur lesquels j’avais des difficultés à comprendre certains passages.

Et il marche très bien en français aussi.

guerby Abonné

Le 19/10/2022 à 11h06

Au passage quelqu’un connait un modele/application libre qui donne des resultats de bonne qualité pour du text to speech ? Ou eventuellement qui s’entraine sur la voix d’une personne et l’imite après pour le text to speech ?

Glandos Abonné

Le 19/10/2022 à 11h13

Les droits restreints sont disponibles sur https://hf.space/static/bigscience/license/index.html

Ils sont assez nombreux :
You agree not to use the Model or Derivatives of the Model:

Je suis pas sûr que ce soit facile de tous les respecter, même en son âme et conscience.

En tout cas, un bon Richard Stallman qui passerait par là dirait que c’est pas libre

ogodei Abonné

Le 21/10/2022 à 09h20

Merci pour l’article, super intéressant !

Catégories

Nous suivre

À propos

BLOOM : l’ambitieux modèle de langage de l’open science

« Don't be evil », bis repetita

Des critiques peu appréciées

BLOOM, de la véritable open science ?

Sommaire de l'article

Introduction

« Don't be evil », bis repetita

Des critiques peu appréciées

BLOOM, de la véritable open science ?

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Atos étudie trois propositions de « restructuration financière »

Bilan 2023 de la DGCCRF, qui a ciblé « les fraudes les plus graves »

Starliner de Boeing devrait (enfin) décoller ce soir, avec deux astronautes

Jack Dorsey n’est plus membre du conseil d’administration de Bluesky et fait le ménage sur X

#Flock vous dit adieu

Commentaires (6)