L’Open Source Initiative accuse Meta de polluer la définition de l’IA open source
Meta ou l'ouverture quantique
Le directeur général de l'Open Source Initiative (OSI), Stefano Maffulli, critique vertement l'utilisation par Meta du terme « open source » pour qualifier ses modèles d'IA générative Llama. L'OSI attaque Meta alors qu'elle finalise justement sa définition de ce terme employé pour qualifier les modèles d'intelligence artificielle.
Le 18 octobre à 14h26
5 min
IA et algorithmes
IA
« Prêtant à confusion » et « polluant » le terme « open source ». Stefano Maffulli, le responsable de l'Open Source Initiative n'y va pas de main morte dans les colonnes du Financial Times pour qualifier l'utilisation du terme par Meta pour présenter sa famille de grands modèles de langage Llama.
Le directeur général de l'organisme, qui encadre la définition du terme et la certification des licences compatibles, dénonce une pratique « extrêmement préjudiciable » de la part de l'entreprise créatrice de Llama. Et ce alors que les textes juridiques comme l'AI Act mis en place par la Commission européenne commencent à s'appuyer sur ce terme pour encadrer les systèmes d'intelligence artificielle.
L'OSI reproche à Meta un manque de transparence dans les descriptions de son modèle et notamment à propos des données qu'elle utilise
Critiquée pour son manque d'ouverture, Llama reste la famille de modèles la plus téléchargée
Au Financial Times, Meta se dit « engagée dans l'IA open source » et ajoute que Llama « a été un pilier de l'innovation en matière d'IA à l'échelle mondiale ».
Malgré les critiques faites à Meta, l'entreprise continue d'utiliser le terme pour qualifier ses modèles et, de fait, ils sont massivement téléchargés par les développeurs qui s'appuient dessus pour créer leurs propres systèmes. Fin aout, elle annonçait que la famille Llama approchait les 350 millions de téléchargements, « faisant de Llama la première famille de modèles open source », affirmait-elle.
Toujours au journal économique américain, Meta affirme que « les définitions existantes de l'open source ne tiennent pas compte de la complexité des modèles d'IA qui progressent rapidement aujourd'hui ». Et semblant ignorer l'OSI, l'entreprise assure s'engager « à continuer à travailler avec l'industrie sur de nouvelles définitions afin de servir tout le monde de manière sûre et responsable au sein de la communauté de l'IA ».
Une définition de l'IA « open source » en vue
Comme nous l'expliquions il y a un an, le marketing de l’IA « ouverte » surfe sur une image positive de l'ouverture dans une partie de la communauté de l'informatique, tout en jouant sur le flou encore présent sur son utilisation dans le milieu de l'intelligence artificielle.
Depuis l'émergence de l'IA générative avec ChatGPT d'OpenAI, dont le nom est tout un symbole de l' « openwashing », l'OSI a accéléré l'élaboration d'une définition adaptée à ce domaine. Fin aout, elle en proposait la version 0.0.9 que nous analysions. Au début de ce mois, la Release Candidate (RC) de la définition a été publiée. L'OSI encourage maintenant les entreprises du secteur à la soutenir en vue de la publication de la version 1.0 le 28 octobre.
Entre la version 0.9 et la version RC, l'OSI a clarifié sa définition pour que tout modèle qui proposerait « au moins » les mêmes libertés que cette définition pourrait être qualifié d'open-source.
Plus de détails sur la description des données dans la release candidate
Comme dans la version 0.9 de la définition, on peut constater que l'OSI reste sur une position de compromis sur les données d'entrainement. L'organisme ne conditionne pas l'appellation « open source » au partage de l'ensemble des données.
Sachant que de nombreux procès ont été ouverts concernant ces données, une telle obligation démotiverait une bonne partie des entreprises qui développent ces systèmes à se ranger derrière cette définition. L'OSI a donc choisi d'exiger, dans sa définition, que les systèmes soient accompagnés d'une description « suffisamment détaillée » des données.
Dans la version RC, la définition précise quand même cet aspect. Notamment, la provenance des données doit être spécifiée, ainsi que leur portée, leurs caractéristiques et la manière dont elles ont été obtenues et sélectionnées. Les procédures d'étiquetage et les méthodes de nettoyage des données doivent être aussi décrites.
L'OSI impose aussi, dans cette version de sa définition, que les données considérées comme « impartageables » et utilisées pour entrainer le modèle soient quand même décrites avec le même niveau de détails.
L'OSI reproche à Meta un manque de transparence dans les descriptions de son modèle et notamment à propos des données qu'elle utilise.
Enfin, dans le même ordre d'idée que la condition « share alike » des licences Creative Commons, la release candidate accepte que la licence d'un système d'IA open source puisse exiger que tout modèle dérivé soit partagé dans les mêmes conditions.
Stefano Maffulli veut montrer que, si la définition portée par l'OSI est critiquée par les puristes qui auraient bien voulu qu'elle oblige la publication des données d'entrainement, elle l'est aussi par certaines entreprises. Il l'expliquait la semaine dernière à ZDnet en faisant la comparaison avec les attaques de Microsoft contre le logiciel libre dans les années 1990.
Pour lui, si Meta et d'autres entreprises parviennent à faire de l' « IA open source » un « terme générique » qu'elles peuvent définir à leur avantage, elles pourront « insérer leurs brevets générateurs de revenus dans des standards que la [Commission] et d'autres organismes veulent rendre vraiment ouvertes », affirme-t-il au Financial Times.
L’Open Source Initiative accuse Meta de polluer la définition de l’IA open source
-
Critiquée pour son manque d'ouverture, Llama reste la famille de modèles la plus téléchargée
-
Une définition de l'IA « open source » en vue
-
Plus de détails sur la description des données dans la release candidate
Commentaires (1)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 28/10/2024 à 10h34
Histoire de faciliter la confusion entre logiciel libre et logiciel open source et de fait profiter des bénéfices généralement attribués au logiciel libre tout en emprisonnant les clients comme dans une licence propriétaire.
On a perdu la bataille sur le logiciel, autant ne pas la perdre sur les données. :)