Connexion
Abonnez-vous

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Quand Llama fâché, lui toujours faire ainsi

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

Flock

L'Open Source Initiative (OSI) a publié ce lundi la version finale de sa définition de l'IA open-source. Celle-ci diffère encore un peu de la release candidate diffusée mi-octobre. Comme on pouvait s'en douter aux vues des tensions entre l'OSI et Meta, la définition exclut les modèles de l'entreprise, qui se revendique pourtant leader de l'IA open source.

Le 29 octobre à 15h13

Comme elle l'avait annoncé, l'Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l'IA open-source. Ce texte, rédigé en collaboration avec différents experts venant de la recherche et de l'industrie, a pour ambition d'adapter la définition de l'open source et les quatre libertés essentielles au monde des modèles d'intelligence artificielle.

Dans son billet de blog, l'OSI explique qu'elle est « le résultat de plusieurs années de recherche et de collaboration, d'une tournée internationale d'ateliers et d'un processus de co-conception d'un an mené par l'Open Source Initiative (OSI), mondialement reconnue par les particuliers, les entreprises et les institutions publiques comme l'autorité qui définit l'Open Source ».

La définition insiste encore plus sur la description des données d'entrainement

Comparée à la version Release Candidate dont nous avions déjà parlé, la base du texte reste évidemment la même. Mais quelques modifications ont quand même été ajoutées.

L'OSI exige maintenant une description « complète » des données utilisées pour entrainer le modèle. Dans sa version RC, l'organisme ne demandait qu'une version « détaillée ». Cette précision renforce l'obligation d'information sur les données d'entrainement.

La définition a été, pendant son processus, critiquée pour accepter que cette description remplace le fait de publier de façon effective les données d'entrainement. L'utilisation de ce terme dans la version finale de la définition vient appuyer l'idée qu'à défaut de les publier, les créateurs de modèles doivent vraiment détailler les informations concernant leurs données d'entrainement.

Cette version insiste aussi, contrairement aux précédentes, sur le processus de filtrage utilisé sur les données collectées pour entrainer les modèles. La méthodologie de ce processus doit être détaillée et le code qui la met en place doit être publié.

Pas de contrainte sur la manière de publier les paramètres

Un dernier paragraphe a été ajouté à la définition pour préciser qu'elle n'exige pas, pour l'instant, de licence spécifique pour les paramètres du modèle : « la définition de l'IA Open Source n'exige pas de mécanisme juridique spécifique pour garantir que les paramètres du modèle sont librement accessibles à tous. Ils peuvent être libres par nature ou une licence ou un autre instrument juridique peut être nécessaire pour garantir leur liberté. Nous pensons que cela deviendra plus clair avec le temps, une fois que le système juridique aura eu l'occasion de se pencher sur les systèmes d'IA open-source ».

Meta fâchée

Comme nous l'avions déjà noté, cette définition crée des tensions entre l'OSI et Meta, qui revendique haut et fort le caractère « open-source » de ses modèles Llama. L'entreprise de Mark Zuckerberg ne détaille notamment pas les données sur lesquelles sont entrainés ses modèles. Comme expliqué plus haut, si l'OSI a rapidement fait des concessions sur la possibilité de ne pas publier les données d'entrainement, elle a encore resserré ses exigences d'information les concernant.

À The Verge, Meta affirme être « d'accord avec [son] partenaire OSI sur de nombreux points », mais pas sur tous, ce qui la pousse à contester le consensus : « il n'existe pas de définition unique de l'IA open source, et la définir est un défi, car les définitions précédentes de l'open source n'englobent pas les complexités des modèles d'IA d'aujourd'hui qui progressent rapidement ».

Malgré ce désaccord avec Meta, la définition a acquis le ralliement d'autres acteurs du secteur. « La nouvelle définition exige que les modèles open source fournissent suffisamment d'informations sur leurs données d'entraînement pour qu'une "personne compétente puisse recréer un système substantiellement équivalent en utilisant des données identiques ou similaires", ce qui va plus loin que ce que font aujourd'hui de nombreux modèles propriétaires ou qui sont open source d'apparence », selon Ayah Bdeir, responsable IA chez Mozilla.

Pour Clément Delangue d'Hugging Face, cette définition est « une aide considérable dans l'élaboration de la conversation sur l'ouverture de l'IA, en particulier en ce qui concerne le rôle crucial des données d'entraînement ».

Commentaires (13)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
J'aime beaucoup l'illustration et le sous-titre ❤️
votre avatar
Pour le sous-titre, j'étais prêt à sortir un "quand Meta fachée, Meta toujours cracher" 😅 (oui, j'ai lu le sous-titre après coup).
votre avatar
Ahah, presque envie de le reprendre. Peut être pour une prochaine sur Meta ;)
votre avatar
Le sous-titre actuel est excellent, ne pas le changer.
votre avatar
j'ai la référence ;)
votre avatar
J'aime bien la série de critères publiée par Nextcloud pour leur Ethical AI. C'est certainement perfectible et discutable mais ça met bien en lumière le tryptique données d'entrainements/poids/code.
nextcloud.com Nextcloud

Dans ce cadre là, je suppose que seuls les systèmes avec un ratings de 3 devraient pouvoir être appelés ouverts.
votre avatar
Comme je disais sur l'autre article, cette définition est une bonne chose pour arrêter cette mascarade de ouvert oui mais pas trop. L'open weight c'est un peu comme des binaires applicatifs diffusés librement. C'est bien beau, mais on sait pas comment ça à été produit.

Un peu de bullshit en moins ne fera pas de mal au domaine.
votre avatar
Attention quand même, ce n'est pas parce que la définition de l'OSI pour l'open source logiciel s'est imposée que c'est l'OSI qui définit les définitions de l'open source dans tel ou tel domaine. En ce sens, le titre de l'article est trompeur, puisque l'IA Open Source a une définition, mais qui n'est pas (encore ?) la définition de référence.

"open source" n'est pas une marque ou un terme protégé, et il est sujet à de nombreux malentendus pour les non-initiés (et même parfois pour les initiés !).

Par contre, on ne retrouve pas cette imprécision dans le reste de l'article.

D'ailleurs, je me souviens, au début de l'open source, on spécifiait généralement quelque chose comme "au sens OSI du terme" pour lever toute ambiguïté (ce qui ne se fait plus aujourd'hui).

Et on n'est jamais à l'abris d'un "rebranding" d'un terme. Le Web 3 existe depuis belle lurette, mais a été complètement vidée de sa signification originelle par les cryptophiles en quelques mois...
votre avatar
Effectivement, on est pas à l'abri d'un détournement pour son propre bénéfice.

Cela dit, ce cadre permet de poser une définition qui a moyen d'avoir un certain impact. Je rêve car c'est évidemment bien plus complexe, mais si cela permet demain de pouvoir soi-même entraîner un équivalent de Llama avec le même jeu de données, ça pourrait rendre le produit moins boite noire. Et permettre des alternatives plus libres que la version binaire fournie.

Un peu comme VS Codium vs VS Code.
votre avatar
Tu n'auras jamais le même jeu de données. Que ce soit Meta, OpenAI ou d'autres, ils passent de plus en plus d'accords avec des médias (Le Monde, The New York Times…), des maisons littéraires, des bibliothèques… pour inclure un grand nombre de données protégées par le droit d'auteur.

De ton côté, même si tu t'abonnes au Monde, tu n'auras pas l'autorisation d'automatiser le téléchargement de leurs 80 années d'archives, t'interdisant ainsi de pouvoir créer un modèle équivalent à celui de Meta.
votre avatar
La petite réf à Tintin 😎
votre avatar
It whips the Llama's ass.
votre avatar
:sm:

L’IA open-source a sa définition 1.0 qui exclut les modèles Llama de Meta

  • La définition insiste encore plus sur la description des données d'entrainement

  • Pas de contrainte sur la manière de publier les paramètres

  • Meta fâchée

Fermer