Hugging Face lève 40 millions de dollars pour devenir le « GitHub du machine learning »

Hugging Face lève 40 millions de dollars pour devenir le « GitHub du machine learning »

Câlins et Transformers

Avatar de l'auteur

Vincent Hermann

Publié dansLogiciel

12/03/2021
4
Hugging Face lève 40 millions de dollars pour devenir le « GitHub du machine learning »

Lancée sur une stratégie open source et communautaire, la startup française cherche à développer sa monétisation grâce à des services d’inférence et d’entrainement des modèles. Nous nous sommes entretenu avec Julien Chaumond, CTO (directeur technique) et cofondateur de Hugging Face.

L’histoire de Hugging Face a commencé il y a environ deux ans et demi, quand elle a lancé sa bibliothèque Transformers. Dédiée au traitement du langage naturel (NLP, pour Natural Language Processing) et open source (licence Apache 2.0), elle fonctionne avec PyTorch et TensorFlow 2.0.

Elle est rapidement devenue une référence. La devise de l’entreprise est d’ailleurs « Solving NLP, one commit at a time » (Résoudre le NLP, un commit à la fois). Elle lève aujourd'hui 40 millions de dollars. Mais pour quoi faire ?

De Transformers aux offres payantes

Avant d’aller plus loin, évoquons rapidement deux notions importantes : l’entrainement et l’inférence. Le premier consiste à présenter des informations déjà étiquetées, par exemple des photos de chats. On obtient alors un modèle. Plus on entraine, plus il devient efficace. L’inférence consiste à appliquer ce modèle entrainé à des informations non étiquetées. Il est alors chargé de créer des relations et de repérer tout seul ce qu’on lui a appris (sur la base de références). Cela peut aussi bien servir pour identifier des oiseaux que repérer du spam.

Depuis sa création, Transformers a récolté plus de 40 000 étoiles sur GitHub et compte plus de 6 000 contributeurs. Elle est aujourd’hui le cinquième projet le plus actif sur GitHub. Elle a d’abord surtout attiré des scientifiques, puis des ingénieurs pour des applications plus concrètes et optimisations en fonction de besoins spécifiques. Elle dispose aujourd’hui d’une bonne abstraction et peut être utilisée par des développeurs plus généraux.

Hugging Face s'est depuis aussi fait connaître pour son hébergement de modèles. Toute personne physique ou morale peut venir créer un compte et en importer, pour les partager, recueillir des avis ou profiter des services fournis par l'entreprise. Le site a ainsi évolué vers une solution d’hébergement communautaire et open source pour modèles de tous poils, avec services payants pour les entreprises aux besoins plus importants.

Hugging Face Transformers

Ces services sont de plusieurs types. Principale différence avec la formule gratuite : l’importation de modèles privés. Une structure peut vouloir garder secrets ses travaux, qu’il s’agisse ensuite de les rendre publics ou de les garder pour elle. Mais Hugging Face propose également de réaliser des opérations d’inférence, dont les performances dépendent du niveau de souscription. Dans les offres pour entreprises, elles vont de x2 à x2-10, la comparaison se faisant par rapport à la version purement open source hébergée par l'utilisateur.

Le service servant au stockage des modèles possède actuellement 100 000 utilisateurs actifs et compte 5 000 entreprises réparties entre formules gratuites et payantes. Parmi ces dernières, on trouve notamment Facebook, Google et Microsoft (qui l’utilise pour Bing notamment).

Hugging Face TransformersHugging Face Transformers

40 millions de dollars de plus dans l’escarcelle

L’entreprise avait déjà levé 15 millions de dollars, mais, comme nous l'indique Julien Chaumond, « 90 % de la somme sont toujours sur nos comptes ». Pourquoi dès lors lever 40 millions de dollars supplémentaires (série B) ? Parce que Hugging Face a de vastes projets : il veut devenir le « GitHub du machine learning »,

Plus concrètement, il s'agit principalement de l’expansion des services monétisés de l’entreprise, sans toucher à la partie communautaire. Le modèle est semblable à GitHub (d'où la comparaison), avec une solide partie gratuite et des services spécifiques pour des besoins plus importants ou spécifiques.

La levée a été menée, par Lee Fixel (fond Addition) ainsi que les trois investisseurs historiques : Lux Capital, A.Capital et Betaworks. Des investisseurs français ont répondu à l’appel, notamment Olivier Pomel (cofondateur et CEO de Datadog), Florian Douetteau (CEO de Dataiku), Thibaud Elzière, Clément Benoit, Nicolas Steegmann, Anh tho chuong ou encore Ludovic Huraux.

À quoi vont servir exactement ces 40 millions ? Julien Chaumond nous répond : « Notre première action sera d’embaucher pour tripler la taille de l’équipe actuelle. Nous avons pour l’instant une trentaine de personnes, dont un peu plus de la moitié à Paris. Nous comptons embaucher 30 à 40 personnes en France d’ici la fin de l’année, avec des profils très différents : ingénieurs, scientifiques, commerciaux, support, etc. »

Hugging Face veut mettre une équipe renforcée pour s’occuper de la clientèle payante. Les offres vont d’ailleurs se développer, car en plus de proposer un service d’inférence, l’entreprise proposera bientôt un service d’entrainement des modèles NLP. Ce n’est d’ailleurs pas un mystère : un lien est disponible sur la page d’accueil du site et propose de s’inscrire sur liste d’attente pour être averti de sa disponibilité.

Selon le directeur technique, 4 000 demandes ont déjà été faites.

Hugging Face Transformers

« Nous proposerons d’abord uniquement une interface en ligne de commande. Les clients pourront entrainer leurs modèles et comparer les performances. Le service pourra trier les modèles selon plusieurs critères comme les performances, la précision, etc. Nous proposerons d’optimiser ces modèles pour de meilleures résultats », ajoute Julien Chaumond. Actuellement, la gestion de modèles privées est prisée par une centaine d’entreprise, dont Grammarly, Typeform, Intel et Qualcomm, et le service d’inférence par une cinquantaine.

Le responsable nous confirme d’ailleurs que l’un des objectifs de la nouvelle équipe renforcée sera de faire grossir ces chiffres. Et concernant le service d’entrainement des modèles ? « Nous en espérons beaucoup », déclare-t-il, sans plus de détails.  Hugging Face a également pour projet d’élargir son horizon vers un machine learning plus général. Ce développement se fera cependant autour de la communauté et de manière « organique ».

Comprendre que cette extension sera progressive, selon les demandes exprimées. Le processus commence tout juste, avec « quelques premiers clients en inférence audio et computer vision, mais ça reste petit pour l’instant ».

4
Avatar de l'auteur

Écrit par Vincent Hermann

Tiens, en parlant de ça :

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

Avec neutralité, sans neutralité

16:58 ÉcoWeb 8
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Crypto influenceurs

16:41 Éco 2
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Ça en fait des démarrage de DeLorean

14:45 Science 1

Sommaire de l'article

Introduction

De Transformers aux offres payantes

40 millions de dollars de plus dans l’escarcelle

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 8
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 2
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 1
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 46

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 2
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 20
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 15

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 73
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 6

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 20
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 21
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 14
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 6

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 16

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 16
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 35
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 53
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 11

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

MIA : l’IA d’enseignement de Gabriel Attal pour faire oublier le classement PISA

IASociété 63

Une main sur laquelle est collée une étiquette où est écrit "human".

AI Act : des inquiétudes de l’impact de la position française sur les droits humains

DroitIA 1

Un tiroir montrant de nombreuses fiches voire fichiers

Une centaine d’ONG dénonce l’expansion du fichier paneuropéen biométrique EURODAC

DroitSécu 1

WhatsApp

Meta coupe le lien entre Instagram et Messenger

Soft 3

Nuage (pour le cloud) avec de la foudre

Cloud : Amazon rejoint Google dans l’enquête de la CMA sur les pratiques de Microsoft

DroitWeb 0

Des billets volent dans les airs.

Mistral AI s’apprête à lever 450 millions d’euros auprès de NVIDIA et a16z

ÉcoIA 0

Commentaires (4)


Antwan
Il y a 3 ans

HF fait du beau boulot, c’est une belle startup avec un beau modèle. Bravo à l’équipe.


spidermoon Abonné
Il y a 3 ans

Connaissant la nature humaine et l’expérimentation de Microsoft qui avait laisser le public entrainer un modèle, j’espère qu’il ont prévu des sécurités pour éviter les images inappropriées ou des tags ne correspondant pas à l’image.


Eagle1 Abonné
Il y a 3 ans

gros risque de se faire copier/voler par github non ?


MoonRa
Il y a 3 ans

Microsoft rachète facilement quand elle galère. 1. Start up, 2. Cash In, 3. Sell Out, 4. Bro Down