Vers des critères plus clairs pour l’« IA ouverte » ?

Une ouverture fermée, ou une fermeture ouverte ?

Alors que les entreprises du secteur annoncent régulièrement la sortie de modèles « ouverts », le besoin d'une définition claire du terme est de plus en plus présent. L'Open Source Initiative a proposé la semaine dernière son dernier brouillon de définition.

Martin Clavey

Le 29 août 2024 à 09h15

4 min

IA et algorithmes

Comme nous l'expliquions en novembre dernier, le marketing de l'« ouverture » est intense dans le milieu de l'intelligence artificielle générative. L'Open Source Initiative (OSI) a rassemblé 70 experts (incluant chercheurs, avocats, militants, décideurs politiques et entreprises comme Meta, Google etc) pour essayer de clarifier le terme concernant ce domaine.

Le chercheur David Gray Widder et les deux chercheuses Sarah Myers West et Meredith Whittaker expliquaient en fin d'année dernière que les termes « open » et « opensource » constituent « souvent plus une aspiration ou un marketing qu'un descripteur technique, et mélangent fréquemment des concepts issus à la fois des logiciels open source et de la science ouverte ».

Le marketing de l’IA « ouverte »

On parle aussi d’« Open washing » et on peut se rendre compte de la complexité de la situation en replongeant dans l’analyse de deux chercheurs néerlandais de plusieurs dizaines de modèles de génération de textes et/ou d’images se prétendant « open ». Open ne veut pas toujours dire open, et bien souvent pas totalement.

Un milieu aux utilisations hétérogènes

Du nom du créateur de ChatGPT, OpenAI, au matraquage de Meta pour qualifier ses modèles Llama d'« open source », la plupart des acteurs du milieu a utilisé ce vocabulaire. Mais il reste difficile de savoir ce qu'il en est vraiment, les définitions étant encore floues pour ce domaine. De ce que permet la licence aux informations sur les données utilisées pour l'entrainement du modèle en passant par l'ouverture de ses poids et du code, de nombreux paramètres peuvent entrer dans l'équation.

D'autres acteurs, comme Apple, ont publié leurs modèles de façon très ouverte sans le clamer haut et fort. Mais l'Open source initiative se pose quand même des questions sur la licence « Apple sample code license » créée pour l'occasion par la firme à la Pomme.

Quatre libertés

L'OSI a publié récemment un brouillon de définition (version 0.0.9) qui commence à cadrer les choses.

Le texte, encore en discussion, met en avant quatre « libertés » que le terme « Open Source AI » devrait contenir, celle de :

Utiliser le système à n'importe quelle fin et sans avoir à demander la permission ;
Étudier le fonctionnement du système et inspecter ses composants ;
Modifier le système dans n'importe quel but, y compris pour en changer les résultats ;
Partager le système pour que d'autres puissent l'utiliser, avec ou sans modifications, dans n'importe quel but.

Ces « libertés » s'inspirent de celles définies par la Free Software Foundation concernant le logiciel libre, expliquent l'organisation. « Ces libertés s'appliquent à la fois à un système entièrement fonctionnel et à des éléments discrets d'un système », ajoute l'organisme.

L'IA définit sur la base du machine learning

Elles s'appliqueraient à des systèmes d'IA dont la définition est aussi donnée par l'OSI :

« Un système d'IA est un système basé sur une machine qui, pour des objectifs explicites ou implicites, déduit, à partir des données qu'il reçoit, comment générer des résultats tels que des prédictions, du contenu, des recommandations ou des décisions qui peuvent influencer des environnements physiques ou virtuels. Les différents systèmes d'IA varient dans leurs niveaux d'autonomie et d'adaptabilité après le déploiement ».

L'organisme indique aussi qu'« une condition préalable à l'exercice de ces libertés est d'avoir accès à la forme privilégiée pour apporter des modifications au système ». La « forme privilégiée » d'un tel système étant aussi définie par l'OSI. Celle-ci devrait comporter des informations « suffisamment détaillées », le code source sous une licence « approuvée par l'OSI », ainsi que les paramètres et poids du modèle.

Pas d'obligation d'exhaustivité sur les données

L'Open source initiative ne prend, par contre, pas position sur le besoin d'une licence ou non pour encadrer les paramètres du modèle. Le brouillon ne contient pas non plus d'obligation de lister de façon exhaustive les données sur lesquelles le modèle a été entrainé. Cette information est d'autant plus sensible que nombre d'entreprises du secteur sont accusées d'avoir enfreint le Copyright de contenus pour les entrainer.

Le site de l'OSI prévoit que la définition soit présentée officiellement dans une version stable dans deux mois, lors de la conférence All Things Open.

Commentaires (3)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

SebGF Abonné

Le 29/08/2024 à 13h24

Le brouillon ne contient pas non plus d'obligation de lister de façon exhaustive les données sur lesquelles le modèle a été entrainé.

C'est pas le lecture que j'ai faite de la partie data. Leur considération précise que le jeu et la technique d'entraînement doivent être suffisamment précises pour pouvoir le reproduire.

Et ces données devraient être mises à disposition selon une licence compatible OSD.

Data information: Sufficiently detailed information about the data used to train the system, so that a skilled person can recreate a substantially equivalent system using the same or similar data. Data information shall be made available with licenses that comply with the Open Source Definition.

Martin Clavey Équipe

Le 29/08/2024 à 14h10

Dans la citation, on parle bien de "Data information" pas des data en elles-mêmes et le " or similar data" introduit un flou rendant possible de seulement décrire les données.

SebGF Abonné

Le 29/08/2024 à 21h13

Après relecture plus au calme (le train + le smartphone n'est pas un super combo, un endroit bruyant accompagné du pire support de lecture possible - et je ne dirai pas non plus à tête reposée car elle a 1400km dans les lattes) de l'ébauche de proposition, je maintiens quand même ma lecture.

La proposition parle bien des "données ayant servi à entraîner le système" permettant à une "personne qualifiée" de recréer un modèle "substantiellement similaire" en utilisant les "mêmes ou des données équivalentes".

Si le brouillon (encore très succinct il faut dire) ne dit pas qu'il faut l'exhaustivité du dataset, là dessus on est d'accord, il précise que celui-ci doit être suffisamment documenté pour pouvoir le reproduire. C'est plutôt sur ce point que ma lecture diffère.
Cette suggestion est déjà un pas en avant en matière de transparence là où aujourd'hui c'est une boîte noire pour la majorité des modèles. Même un Stable Diffusion censé être ouvert ne l'est que très peu puisqu'il dira simplement avoir utilisé les dataset de LAION, dont le 5b qui est toujours offline en raison de contenu à problème, mais il n'y a pas pour autant l'info disant si celui-ci a été exploité sans pré-traitement ou non ni avec quels éventuels compléments.

Dès lors, même si le jeu de données diffère physiquement (ex : les photos de chiens ne sont pas les mêmes pour faire apprendre à un modèle ce qu'est un chien), le fait qu'il soit suffisamment documenté pour assurer sa reproductibilité me semble être une première approche concrète pour ouvrir la boîte noire du dataset. Et ainsi en finir avec le mensonge des modèles de deep learning "ouverts".

En tous cas, l'info reste très intéressante et semble aller dans le même sens que la position de Creative Commons sur l'IA générative. Même s'il reste encore beaucoup de réflexions à avoir sur le sujet.

D'ailleurs, un élément amusant qui m'est venu en tête : c'est exactement la même question que les logiciels libre dont les binaires sont livrés avec une licence différente. L'exemple typique est VS Code dont les sources sont sous MIT mais les binaires sous licence Microsoft. Raison pour laquelle j'utilise le rebuild VS Codium qui est une compilation des sources. Cela entraîne même des soucis, typiquement l'extension GitHub Copilot ne fonctionne pas (en tous cas à l'époque où j'ai testé) sur VS Codium sans devoir faire des manips supplémentaires. Au final, ici, le dataset est comme le binaire compilé : une boîte noire.