L’Open Source Initiative accuse Meta de polluer la définition de l’IA open source

Meta ou l'ouverture quantique

Flock

Le directeur général de l'Open Source Initiative (OSI), Stefano Maffulli, critique vertement l'utilisation par Meta du terme « open source » pour qualifier ses modèles d'IA générative Llama. L'OSI attaque Meta alors qu'elle finalise justement sa définition de ce terme employé pour qualifier les modèles d'intelligence artificielle.

Martin Clavey

Le 18 octobre 2024 à 14h26

5 min

IA et algorithmes

« Prêtant à confusion » et « polluant » le terme « open source ». Stefano Maffulli, le responsable de l'Open Source Initiative n'y va pas de main morte dans les colonnes du Financial Times pour qualifier l'utilisation du terme par Meta pour présenter sa famille de grands modèles de langage Llama.

Le directeur général de l'organisme, qui encadre la définition du terme et la certification des licences compatibles, dénonce une pratique « extrêmement préjudiciable » de la part de l'entreprise créatrice de Llama. Et ce alors que les textes juridiques comme l'AI Act mis en place par la Commission européenne commencent à s'appuyer sur ce terme pour encadrer les systèmes d'intelligence artificielle.

L'OSI reproche à Meta un manque de transparence dans les descriptions de son modèle et notamment à propos des données qu'elle utilise

Critiquée pour son manque d'ouverture, Llama reste la famille de modèles la plus téléchargée

Au Financial Times, Meta se dit « engagée dans l'IA open source » et ajoute que Llama « a été un pilier de l'innovation en matière d'IA à l'échelle mondiale ».

Malgré les critiques faites à Meta, l'entreprise continue d'utiliser le terme pour qualifier ses modèles et, de fait, ils sont massivement téléchargés par les développeurs qui s'appuient dessus pour créer leurs propres systèmes. Fin aout, elle annonçait que la famille Llama approchait les 350 millions de téléchargements, « faisant de Llama la première famille de modèles open source », affirmait-elle.

Toujours au journal économique américain, Meta affirme que « les définitions existantes de l'open source ne tiennent pas compte de la complexité des modèles d'IA qui progressent rapidement aujourd'hui ». Et semblant ignorer l'OSI, l'entreprise assure s'engager « à continuer à travailler avec l'industrie sur de nouvelles définitions afin de servir tout le monde de manière sûre et responsable au sein de la communauté de l'IA ».

Une définition de l'IA « open source » en vue

Comme nous l'expliquions il y a un an, le marketing de l’IA « ouverte » surfe sur une image positive de l'ouverture dans une partie de la communauté de l'informatique, tout en jouant sur le flou encore présent sur son utilisation dans le milieu de l'intelligence artificielle.

Depuis l'émergence de l'IA générative avec ChatGPT d'OpenAI, dont le nom est tout un symbole de l' « openwashing », l'OSI a accéléré l'élaboration d'une définition adaptée à ce domaine. Fin aout, elle en proposait la version 0.0.9 que nous analysions. Au début de ce mois, la Release Candidate (RC) de la définition a été publiée. L'OSI encourage maintenant les entreprises du secteur à la soutenir en vue de la publication de la version 1.0 le 28 octobre.

Entre la version 0.9 et la version RC, l'OSI a clarifié sa définition pour que tout modèle qui proposerait « au moins » les mêmes libertés que cette définition pourrait être qualifié d'open-source.

Plus de détails sur la description des données dans la release candidate

Comme dans la version 0.9 de la définition, on peut constater que l'OSI reste sur une position de compromis sur les données d'entrainement. L'organisme ne conditionne pas l'appellation « open source » au partage de l'ensemble des données.

Sachant que de nombreux procès ont été ouverts concernant ces données, une telle obligation démotiverait une bonne partie des entreprises qui développent ces systèmes à se ranger derrière cette définition. L'OSI a donc choisi d'exiger, dans sa définition, que les systèmes soient accompagnés d'une description « suffisamment détaillée » des données.

Dans la version RC, la définition précise quand même cet aspect. Notamment, la provenance des données doit être spécifiée, ainsi que leur portée, leurs caractéristiques et la manière dont elles ont été obtenues et sélectionnées. Les procédures d'étiquetage et les méthodes de nettoyage des données doivent être aussi décrites.

L'OSI impose aussi, dans cette version de sa définition, que les données considérées comme « impartageables » et utilisées pour entrainer le modèle soient quand même décrites avec le même niveau de détails.

L'OSI reproche à Meta un manque de transparence dans les descriptions de son modèle et notamment à propos des données qu'elle utilise.

Enfin, dans le même ordre d'idée que la condition « share alike » des licences Creative Commons, la release candidate accepte que la licence d'un système d'IA open source puisse exiger que tout modèle dérivé soit partagé dans les mêmes conditions.

Stefano Maffulli veut montrer que, si la définition portée par l'OSI est critiquée par les puristes qui auraient bien voulu qu'elle oblige la publication des données d'entrainement, elle l'est aussi par certaines entreprises. Il l'expliquait la semaine dernière à ZDnet en faisant la comparaison avec les attaques de Microsoft contre le logiciel libre dans les années 1990.

Pour lui, si Meta et d'autres entreprises parviennent à faire de l' « IA open source » un « terme générique » qu'elles peuvent définir à leur avantage, elles pourront « insérer leurs brevets générateurs de revenus dans des standards que la [Commission] et d'autres organismes veulent rendre vraiment ouvertes », affirme-t-il au Financial Times.

Commentaires (1)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Citan Abonné

Le 28/10/2024 à 10h34

Yup. Le vocabulaire est important. On a déjà eu la même perversion de la notion de "libre" par de nombreuses entreprises faisant dériver l'adjectif du "logiciel" (centré sur la conservation du bien commun) vers la "licence" (centré sur la possibilité d'appropriation)...

Histoire de faciliter la confusion entre logiciel libre et logiciel open source et de fait profiter des bénéfices généralement attribués au logiciel libre tout en emprisonnant les clients comme dans une licence propriétaire.

On a perdu la bataille sur le logiciel, autant ne pas la perdre sur les données. :)