BLOOM : l'ambitieux modèle de langage de l'open science

BLOOM : l’ambitieux modèle de langage de l’open science

Flower power

Avatar de l'auteur

Martin Clavey

Publié dans

Sciences et espace

18/10/2022
6
BLOOM : l'ambitieux modèle de langage de l'open science

Si l'annonce de la sortie cet été de BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) n'a pas fait un grand « Blam ! » médiatique, ce modèle de langage pourrait changer des choses dans le milieu de l'intelligence artificielle destinée aux textes.

Depuis la publication du modèle de langage GPT-3 en 2020, l'enjeu autour de ces outils d'intelligence artificielle permettant de créer des textes très bien structurés dans de nombreuses langues est devenu très important. Pour ne pas laisser la main mise aux seuls GAFAM, la startup Hugging Face a réussi à rallier un millier de chercheurs et chercheuses pour proposer BLOOM, une solution « open science » grâce aux moyens publics français du ministère de l'enseignement supérieur et de la recherche et du CNRS.

« Don't be evil », bis repetita

En 2020, lors de sa présentation, GPT-3 fait figure de révolution dans le milieu du traitement automatique des langues. Son réseau de neurones de 175 milliards de paramètres a généré un modèle d'intelligence artificielle permettant d'obtenir des textes dont il est très difficile de déterminer qu'ils n'ont pas été écrit par un humain.

GPT-3 a été développé au sein d'OpenAI, une organisation d'abord fondée sous statut « non-profit » par Elon Musk, le chercheur en informatique Ilya Sutskever et des investisseurs comme Sam Altman. Mais rapidement, le projet a changé de statut.

C'est même un an avant l'annonce concernant GPT-3 qu'OpenAI a décidé de passer d'une structure « non-profit » à ce qu'ils ont appelé « capped-profit company », qu'on pourrait traduire par « entreprise à bénéfices plafonnés », pour attirer les investisseurs. Et ça a marché puisqu'en 2019, Microsoft a investi 1 milliard de dollars dans le projet et mis à sa disposition un des plus gros supercalculateurs de l'époque pour élaborer le modèle.

Mais après l'annonce en grande pompe de la création du modèle, OpenAI a vendu une licence exclusive de son utilisation à Microsoft, laissant aux autres utilisateurs potentiels un simple accès via une API, forcément limitée. Ce, sans diffuser le modèle, position contradictoire à ce qui est annoncé dans le nom lui-même d'OpenAI.

Le milieu du traitement automatique des langues est pourtant impressionné par les performances du modèle GPT-3. En 2021, Dall·e 2 bluffe tout le monde en utilisant une version de GPT-3 avec 3,5 milliards de paramètres pour génèrer des images à partir d’un texte. Forte de ce succès, OpenAI a aussi collaboré avec Github pour développer Copilot, son outil d'aide à l'écriture de code basé sur Codex, une version adaptée de GPT-3.

Des critiques peu appréciées

Mais les modèles de langage et GPT-3 ont aussi essuyé des critiques. Les chercheuses Emily M. Bender, Timnit Gebru, Angelina McMillan-Majoret Margaret Mitchell ont notamment publié un article scientifique posant la question des dangers de ce genre d'algorithmes.

Les trois principaux risques pointés étaient l'énergie énorme que peut consommer la création de ce genre de modèles, leur coût important ne laissant la place qu'à de très gros investisseurs, et enfin les biais, notamment racistes et sexistes, qu'ils pouvaient embarquer suivant les données avec lesquelles ils étaient entraÎnés. Cet article a d'ailleurs coûté à Timnit Gebru et Margaret Mitchell, selon elles (ici et ), leur place au sein du laboratoire d'éthique de l'intelligence artificielle de Google.

BLOOM, de la véritable open science ?

C'est dans ce contexte que la startup Hugging Face a lancé au printemps 2021 le projet BigScience proposant aux spécialistes du domaine de créer un projet similaire à GPT-3, mais en partant de principes de collaborations scientifiques beaucoup plus clairs.

Le succès de l'appel est assez évident puisqu'un millier de chercheurs y ont répondu. Des institutions comme le CNRS et Inria ont apporté leurs compétences et leur matériel, et des entreprises comme SalesForce ont aussi collaboré. Hugging Face a également recruté opportunément l'une des autrices de l'article critique, Margaret Mitchell, au cours de cette même année.

Résultat : un an et trois mois et demi de calculs sur le supercalculateur Jean Zay du CNRS, le projet annonçait la création du modèle BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) en juillet dernier. Et contrairement à celui d'OpenAI, le modèle BLOOM est disponible en ligne.

L'article scientifique est aussi disponible avec les commentaires des chercheurs qui l'ont relu, saluant notamment la démarche éthique du projet. BLOOM est distribué avec une licence qui se veut « responsable »  prohibant explicitement les usages malveillants du modèle.

Langages utilisés pour l'entrainement de BLOOM

Techniquement, le calcul de BLOOM a nécessité 384 GPU A100 avec 80 Go de mémoire et environ 1 million d'heures de calculs. Le projet s'est appuyé notamment sur la bibliothèque d'optimisation d'entrainement du deeplearning Deepspeed (ironiquement dévelopée par une équipe de Microsoft) et le framework Megatron-LM de NVIDIA et a été entrainé sur 1,5 To de données venant de 46 langages (contrairement aux 59 qu'annonce leur visuel), la plus grande partie venant de langues indo-européennes, mais aussi chino-tibétaines, afro-asiatiques et 10,8 % de code.

Un nouveau projet nommé « BigCode » a d'ailleurs été lancé pour travailler autour des langages informatiques et proposer une alternative au Codex d'OpenAI.

Une démo de BLOOM est accessible sur le site de Hugging Face. Reste à savoir maintenant si la structure créée autour de BLOOM et promouvant l' « open science » défendra réellement cet aspect essentiel du projet. La publication du modèle, du dispositif et la démarche en elle-même semblent apporter une certaine garantie.

6
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

Le poing Dev – Round 8

Un grand huit émotionnel

22:05 Next 12
Guacamole sur un plateau

Guacamole sur un plateau (1/5) : on monte un bastion sécurisé

Vous cherchez le bastion ?

17:13 WebSécu 10
Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

Projet européen sur le cloud : OVHcloud s’est retirée au dernier moment et s’explique

Tu me vois, tu ne me vois plus

16:45 IAWeb 3

Sommaire de l'article

Introduction

« Don't be evil », bis repetita

Des critiques peu appréciées

BLOOM, de la véritable open science ?

Le poing Dev – Round 8

Next 12
Guacamole sur un plateau

Guacamole sur un plateau (1/5) : on monte un bastion sécurisé

WebSécu 10
Mur d’OVHcloud à Roubaix, avec le logo OVHcloud

Projet européen sur le cloud : OVHcloud s’est retirée au dernier moment et s’explique

IAWeb 3
IA Act

AI Act européen : un compromis de haute lutte, de rares interdictions

DroitIA 2
Panneau stop

Apple bloque Beeper, qui permettait d’utiliser iMessage sur Android

WebSoft 15

#LeBrief : faux avis sur Internet, enquêtes sur l’accord Microsoft et OpenAI, cybersécurité aux États-Unis

Un mélange entre une réunion d’Anonymous et de tête d’ampoules, pour le meilleur et le pire

652e édition des LIDD : Liens Intelligents Du Dimanche

Next 9
dessin de Flock

#Flock distribue des mandales tous azimuts

Flock 14
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #11 et résumé de la semaine

Next 43
Carte graphique AMD GeForce

Cartes graphiques : 30 ans d’évolution des GPU

Hard 29

Google lance son opération de communications Gemini pour rivaliser avec OpenAI

IA 6
Ecran bleu de Windows

Linux : le composant systemd se dote d’un écran bleu de la mort

Soft 41
Une petite fille en train d'apprendre à programmer et hacker logiciels et appareils électroniques

Un roman graphique explique les logiciels libres aux enfants

SoftSociété 21
Nouveautés pour Messenger

Meta lance (enfin) le chiffrement de bout en bout de Messenger, entre autres

Socials 6

#LeBrief : cloud européen, OSIRIS-REx a frôlée la catastrophe, CPU AMD Ryzen 8040

Windows en 2024 : beaucoup d’IA, mais pas forcément un « 12 »

Soft 21
Einstein avec des qubits en arrière plan

Informatique quantique, qubits : avez-vous les bases ?

HardScience 9
Notifications iPhone

Surveillance des notifications : un sénateur américain demande la fin du secret

DroitSécu 18

En ligne, les promos foireuses restent d’actualité

DroitWeb 19

#LeBrief : modalité des amendes RGPD, cyberattaque agricole, hallucinations d’Amazon Q, 25 ans d’ISS

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 31
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 10
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 8
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 78

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 3
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 26
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 22

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Acheter sur Internet et payer avec sa carte bancaire

La DGCCRF traque les faux avis sur Internet avec son Polygraphe

ÉcoWeb 17

Logo OpenAI

Au Royaume-Uni et aux États-Unis, l’accord entre Microsoft et OpenAI à la loupe

Droit 4

Une main tenant de gros paquets de dollars

87 % des agences états-uniennes ne parviennent pas à respecter les normes de cybersécurité

DroitSécu 3

Florie Marie démissionne de la présidence du Parti Pirate International

Société 8

Commentaires (6)


Stephane_A
Le 18/10/2022 à 17h58

#1

Pour l’Open AI , GPT-3 certains Commencent a sentir les effets surtout dans les études supérieures ou des étudiants s’en servent pour écrire leurs devoirs


wagaf Abonné
Le 18/10/2022 à 19h10

#2

Super projet :chinois:



Dans les modèles ouverts il faut aussi mentionner :




  • Whisper de OpenAI, qui change la donne en terme de reconnaissance vocale (si votre entreprise paye pour un service de reconnaissance vocale envisagez d’utiliser Whisper à la place).



  • Stable Diffusion pour la génération d’images, le fait d’utiliser le modèle localement permet de désactiver la censure parfois pénible imposée par les services en ligne.



SebGF Abonné
Le 18/10/2022 à 20h27

#2.1

Effectivement Whisper est super impressionnant. Je l’ai utilisé une paire de fois à titre perso pour transcrire l’audio de contenus anglophones sur lesquels j’avais des difficultés à comprendre certains passages.



Et il marche très bien en français aussi.


guerby Abonné
Le 19/10/2022 à 11h06

#3

Au passage quelqu’un connait un modele/application libre qui donne des resultats de bonne qualité pour du text to speech ? Ou eventuellement qui s’entraine sur la voix d’une personne et l’imite après pour le text to speech ?


Glandos Abonné
Le 19/10/2022 à 11h13

#4

Les droits restreints sont disponibles sur https://hf.space/static/bigscience/license/index.html



Ils sont assez nombreux :
You agree not to use the Model or Derivatives of the Model:



In any way that violates any applicable national, federal, state, local or international law or regulation;
For the purpose of exploiting, harming or attempting to exploit or harm minors in any way;
To generate or disseminate verifiably false information with the purpose of harming others;
To generate or disseminate personal identifiable information that can be used to harm an individual;
To generate or disseminate information or content, in any context (e.g. posts, articles, tweets, chatbots or other kinds of automated bots) without expressly and intelligibly disclaiming that the text is machine generated;
To defame, disparage or otherwise harass others;
To impersonate or attempt to impersonate others;
For fully automated decision making that adversely impacts an individual’s legal rights or otherwise creates or modifies a binding, enforceable obligation;
For any use intended to or which has the effect of discriminating against or harming individuals or groups based on online or offline social behavior or known or predicted personal or personality characteristics
To exploit any of the vulnerabilities of a specific group of persons based on their age, social, physical or mental characteristics, in order to materially distort the behavior of a person pertaining to that group in a manner that causes or is likely to cause that person or another person physical or psychological harm;
For any use intended to or which has the effect of discriminating against individuals or groups based on legally protected characteristics or categories;
To provide medical advice and medical results interpretation;
To generate or disseminate information for the purpose to be used for administration of justice, law enforcement, immigration or asylum processes, such as predicting an individual will commit fraud/crime commitment (e.g. by text profiling, drawing causal relationships between assertions made in documents, indiscriminate and arbitrarily-targeted use).


Je suis pas sûr que ce soit facile de tous les respecter, même en son âme et conscience.



En tout cas, un bon Richard Stallman qui passerait par là dirait que c’est pas libre :troll:


ogodei Abonné
Le 21/10/2022 à 09h20

#5

Merci pour l’article, super intéressant ! :yes: