L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Quand Llama fâché, lui toujours faire ainsi

Flock

L'Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l'IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s'en douter aux vues des tensions entre l'OSI et Meta, la définition exclut les modèles de l'entreprise, qui se revendique pourtant leader de l'IA open source.

Martin Clavey

Le 29 octobre à 15h13

4 min

IA et algorithmes

Comme elle l'avait annoncé, l'Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l'IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l'industrie, a pour ambition d'adapter la définition de l'open source et les quatre libertés essentielles au monde des modèles d'intelligence artificielle.

Dans son billet de blog, l'OSI explique qu'elle est « le résultat de plusieurs années de recherche et de collaboration, d'une tournée internationale d'ateliers et d'un processus de co-conception d'un an mené par l'Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l'autorité qui définit l'Open Source ».

La définition insiste encore plus sur la description des données d'entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L'OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l'organisme ne demandait qu'une version « détaillée ». Cette précision renforce l'obligation d'information sur les données d'entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d'entrainement. L'utilisation de ce terme dans la version finale de la définition vient appuyer l'idée qu'à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d'entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu'elle n'exige pas, pour l'instant, de licence spécifique pour les paramètres du modèle : « la définition de l'IA Open Source n'exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l'occasion de se pencher sur les systèmes d'IA open-source ».

Meta fâchée

Comme nous l'avions déjà noté, cette définition crée des tensions entre l'OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L'entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l'OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d'entrainement, elle a encore resserré ses exigences d'information les concernant.

À The Verge, Meta affirme être « d'accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n'existe pas de définition unique de l'IA open source, et la définir est un défi, car les définitions précédentes de l'open source n'englobent pas les complexités des modèles d'IA d'aujourd'hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d'autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d'informations sur leurs données d'entraînement pour qu'une "personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires", ce qui va plus loin que ce que font aujourd'hui de nombreux modèles propriétaires ou qui sont open source d'apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d'Hugging Face, cette définition est « une aide considérable dans l'élaboration de la conversation sur l'ouverture de l'IA, en particulier en ce qui concerne le rôle crucial des données d'entraînement ».

Commentaires (13)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Refhi Abonné

Le 29/10/2024 à 15h54

J'aime beaucoup l'illustration et le sous-titre ❤️

Gilbert_Gosseyn Abonné

Le 29/10/2024 à 16h06

Pour le sous-titre, j'étais prêt à sortir un "quand Meta fachée, Meta toujours cracher" 😅 (oui, j'ai lu le sous-titre après coup).

Martin Clavey Équipe

Le 29/10/2024 à 16h33

Ahah, presque envie de le reprendre. Peut être pour une prochaine sur Meta ;)

fred42 Abonné

Le 29/10/2024 à 19h15

Le sous-titre actuel est excellent, ne pas le changer.

dualboot

Le 29/10/2024 à 21h44

j'ai la référence ;)

Aqua Abonné

Modifié le 29/10/2024 à 15h56

J'aime bien la série de critères publiée par Nextcloud pour leur Ethical AI. C'est certainement perfectible et discutable mais ça met bien en lumière le tryptique données d'entrainements/poids/code.

Nextcloud

Dans ce cadre là, je suppose que seuls les systèmes avec un ratings de 3 devraient pouvoir être appelés ouverts.

SebGF Abonné

Le 29/10/2024 à 16h40

Comme je disais sur l'autre article, cette définition est une bonne chose pour arrêter cette mascarade de ouvert oui mais pas trop. L'open weight c'est un peu comme des binaires applicatifs diffusés librement. C'est bien beau, mais on sait pas comment ça à été produit.

Un peu de bullshit en moins ne fera pas de mal au domaine.

fdorin Abonné

Le 29/10/2024 à 17h19

Attention quand même, ce n'est pas parce que la définition de l'OSI pour l'open source logiciel s'est imposée que c'est l'OSI qui définit les définitions de l'open source dans tel ou tel domaine. En ce sens, le titre de l'article est trompeur, puisque l'IA Open Source a une définition, mais qui n'est pas (encore ?) la définition de référence.

"open source" n'est pas une marque ou un terme protégé, et il est sujet à de nombreux malentendus pour les non-initiés (et même parfois pour les initiés !).

Par contre, on ne retrouve pas cette imprécision dans le reste de l'article.

D'ailleurs, je me souviens, au début de l'open source, on spécifiait généralement quelque chose comme "au sens OSI du terme" pour lever toute ambiguïté (ce qui ne se fait plus aujourd'hui).

Et on n'est jamais à l'abris d'un "rebranding" d'un terme. Le Web 3 existe depuis belle lurette, mais a été complètement vidée de sa signification originelle par les cryptophiles en quelques mois...

SebGF Abonné

Le 30/10/2024 à 07h39

Effectivement, on est pas à l'abri d'un détournement pour son propre bénéfice.

Cela dit, ce cadre permet de poser une définition qui a moyen d'avoir un certain impact. Je rêve car c'est évidemment bien plus complexe, mais si cela permet demain de pouvoir soi-même entraîner un équivalent de Llama avec le même jeu de données, ça pourrait rendre le produit moins boite noire. Et permettre des alternatives plus libres que la version binaire fournie.

Un peu comme VS Codium vs VS Code.

Okki Abonné

Le 30/10/2024 à 14h53

Tu n'auras jamais le même jeu de données. Que ce soit Meta, OpenAI ou d'autres, ils passent de plus en plus d'accords avec des médias (Le Monde, The New York Times…), des maisons littéraires, des bibliothèques… pour inclure un grand nombre de données protégées par le droit d'auteur.

De ton côté, même si tu t'abonnes au Monde, tu n'auras pas l'autorisation d'automatiser le téléchargement de leurs 80 années d'archives, t'interdisant ainsi de pouvoir créer un modèle équivalent à celui de Meta.

Mr.Nox

Le 29/10/2024 à 17h42

La petite réf à Tintin 😎

sephirostoy Abonné

Le 29/10/2024 à 18h29

It whips the Llama's ass.

Arkeen Abonné

Le 29/10/2024 à 23h06