La définition de l’IA ouverte divise encore le milieu
La bataille se rejoue
En octobre dernier, l'Open Source Initiative a publié la version 1.0 de sa définition de l'IA ouverte, mais des acteurs du milieu du logiciel libre n'en sont pas satisfaits. Ils s'organisent autour de Sam Johnston pour peser sur la définition qui sera utilisée en Europe lors du AI Action Summit organisé par l'Élysée les 10 et 11 février.
Le 06 janvier à 15h09
5 min
IA et algorithmes
IA
La définition de l'IA ouverte (le terme utilisé internationalement est « open source ») est un enjeu important dans la régulation du secteur. L'AI Act européen s'appuie notamment sur ce terme pour exonérer leurs concepteurs de certaines obligations :
« Les tiers qui rendent accessibles au public des outils, services, processus ou composants d’IA autres que des modèles d’IA à usage général ne devraient pas être tenus de se conformer aux exigences visant les responsabilités tout au long de la chaîne de valeur de l’IA, en particulier à l’égard du fournisseur qui les a utilisés ou intégrés, lorsque ces outils, services, processus ou composants d’IA sont rendus accessibles sous licence libre et ouverte ».
En octobre, l'Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l'IA. Pendant les différentes phases d'élaboration de cette définition, les informations sur les données utilisées pour entrainer les IA étaient au centre des discussions. Des entreprises comme Meta, qui considère que ses modèles Llama sont les leaders de l'IA open-source, ne veulent absolument pas donner de détail sur les données qu'elles utilisent. De l'autre côté, certains acteurs de l'open source comme Linagora insistaient pour que ne soient considérées comme ouvertes que les IA dont sont connues les données d'apprentissage.
Une définition qui fait des remous du côté de Debian
Au final, la définition 1.0 de l'OSI insiste sur le besoin d'une « description complète » des données utilisées pour entrainer le modèle sans pour autant exiger que ces données soient totalement connues. Cette définition a convaincu certains acteurs comme Hugging Face, Linagora, :probabl. ou Mozilla qui l'ont officiellement approuvée.
Mais des développeurs de Debian ont eu des positions assez virulentes contre cette définition sur leur liste de discussion. L'un d'entre eux, Mo Zhou, expliquait par exemple, que « les systèmes d'IA sont des logiciels et (pour citer Bruce Perens, auteur du DFSG [Debian Free Software Guidelines] et de l'OSD [Open source definition] et fondateur de l'OSI) les données d'entraînement sont la source, de sorte que l'OSAID [open source artificial intelligence definition] est fondamentalement incompatible avec l'OSD ». Rappelons aussi que la définition de l'open source a dérivé des Debian Free Software Guidelines (DFSG), comme l'explique aussi l'OSI à la fin de son texte.
Un autre développeur de Debian opposé à la définition de l'OSI, l'australien Sam Johnston, a entamé des démarches pour construire une organisation sur une définition qui inclurait clairement la publication des données d'entrainement. Il propose notamment le brouillon d'une autre définition, qui s'appuie aussi sur la définition originelle de l'open source. Celle-ci commence par affirmer :
« L'open source ne signifie pas seulement l'accès à la source, mais la liberté pour les utilisateurs d'étudier, d'utiliser, de modifier et de partager le programme, pour n'importe quel but et sans avoir à demander la permission. Dans les cas où le logiciel repose sur des données - y compris des bases de données, des modèles ou des médias - pour sa création, sa modification ou son fonctionnement, ces données sont considérées comme faisant partie intégrante du programme et sont soumises aux mêmes exigences. »
Une nouvelle structure : l'Alliance pour l'Open Source
Nos confrères de Contexte ont obtenu sa proposition de participation au AI Action Summit (Sommet pour l'action sur l'Intelligence Artificielle) organisé par l'Élysée les 10 et 11 février dans laquelle il explique qu'une « Alliance pour l'Open Source » (AOS) est en train d'être mise en place. Celle-ci miserait notamment « sur la France en tant que centre stratégique pour encourager la collaboration et l'innovation dans le domaine de l'Open Source ».
Et étonnamment, alors que Linagora et :probabl. ont approuvé le texte de l'OSI, Sam Johnston y explique « de récentes réunions productives avec Yann Lechelle, PDG de :probabl. et Alexandre Zapolsky de LINAGORA, ont permis d'initier un effort de sensibilisation organisé pour impliquer les groupes nationaux de logiciels libres en tant que primo-adoptants et collaborateurs, contribuant ainsi a jeter les bases de la formalisation de l'AOS dans l'arène publique ».
Il espère aussi pouvoir rallier l'association April, le projet Debian, la Free Software Foundation Europe, OpenForum Europe, Linux Australia, la Free Software and Open Source Foundation for Africa, OpenUK ou encore les structures internationales que sont la Software Freedom Conservancy, la Free Software Foundation, Digital Public Goods Alliance, la fondation Linux ou la fondation Apache.
Avec cette nouvelle organisation, Sam Johnston, veut « maintenir l'intégrité des principes de l'Open Source ».
La définition de l’IA ouverte divise encore le milieu
-
Une définition qui fait des remous du côté de Debian
-
Une nouvelle structure : l'Alliance pour l'Open Source
Commentaires (13)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 06/01/2025 à 15h57
C'est quoi une donnée "libre", d'ailleurs ? Une photo publiée sur un site public est-elle "libre" même si elle est protégée par le droit d'auteur ?
Hier à 08h07
Les oeuvres restent associés à des auteurs/autrices dont la paternité / maternité n'est pas remise en cause.
Le 06/01/2025 à 15h59
Premièrement, ils sont obligés de dire que les données font partie du programme d'un logiciel qui s'appuie sur des données, ce qui est faux. Les données sont des données, pas un programme. Ils détournent la définition d'un programme pour arriver à leurs fins ce qui n'est jamais bien.
Ensuite, fournir les données d'entraînement d'une IA produite pour autre chose que la recherche est incompatible avec le droit de la propriété intellectuelle de l'UE qui autorise à copier et utiliser des données publiquement disponibles mais qui oblige de détruire ces données (sources) après l'apprentissage. Cela rend impossible l'existence d'IA open source développée dans l'UE.
Modifié le 06/01/2025 à 17h08
Si, par exemple, je pompe tout le texte de wikipédia, j'ai l'impression (il faudra que je regarde les 2 licences données) que la licence m'autorise à garder la base de donnée tant que je garde la liste des noms des auteurs (https://fr.wikipedia.org/wiki/Wikip%C3%A9diaroit_d%27auteur#Statut_de_Wikip%C3%A9dia_au_regard_du_droit_d'auteur). Non ?
Hier à 11h32
Hier à 14h08
Le 06/01/2025 à 18h29
il y a un changement de paradigme avec les IA par rapport aux programmes "standards". Ce que vous appellez données sont dans ce contexte des constantes, puisque invariable après la phase de "compilation". Or tout programme, IA ou standard, sans ses constantes, n'est tout simplement pas un programme, mais seulement une suite de procédures qui ne peuvent pas fonctionner entre elles.
Pour le deuxième point, des efforts sont déjà consacrées pour que ces "constantes" d'entrainement soient publiques et commune, par exemple https://commoncrawl.org/. Il y en a de nombreux autres. Je ne vois pas en quoi une IA open source européenne ne pourrait pas exister, basées sur ces sets de données.
Le 06/01/2025 à 18h31
Sinon j'ai pas bien saisi le passage sur l'incompatibilité avec les lois UE, en quoi ça rendrait impossible l'utilisation de données libres ?
Hier à 07h51
Pour dire « ça ne tient pas la route », il faut argumenter un peu plus. Parce que j’ai du mal à voir en quoi la phase d’apprentissage est conceptuellement différente d’une phase de compilation : on prend tout un tas de données sources, et à partir de ça on en produit un binaire, phase non réversible car on ne peut pas revenir simplement du binaire aux sources.
Enfin ton dernier paragraphe ressemble à du FUD. Par exemple, avec des données dans le domaine public il n’y a aucun soucis.
Hier à 10h50
Un programme traite des données et les images font partie de ces données. Les bases de données ont par exemple un statut particulier dans le droit de la propriété intellectuelle (Articles L341-1 à L343-7 du code de la propriété intellectuelle). Les données d'une IA sont bien plus proches des bases de données que d'un programme.
C'est d'autant plus vrai qu'on peut lire dans l'article : Quant à ton accusation de FUD, laisse moi rire. Quelle IA est construite uniquement à partir de données dans le domaine public ?
Oui, tu as raison en théorie, une IA entraînée uniquement avec des données du domaine public peut être considérée comme ouverte au sens qu'ils veulent donner, mais c'est bien le seul cas. On peut par exemple envisager une IA ayant comme source de données Wikipédia.
Mais ces IA seront bien plus limitées que les IA actuelles.
Modifié le 06/01/2025 à 17h19
On doit pouvoir faire le même usage du logiciel lorsqu'il est dans sa forme précompilé et dans sa forme (re)construite à partir de la source. Si on ne peut pas en faire le même usage parce qu'il manque des composants, c'est que la source était incomplète.
Cf. l'exemple avec le 'jeu Quake' versus la 'game engine Quake'.
Paradoxalement, je suis également d'accord avec la remarque Fred42: il ne faut pas modifier la définition existante du terme "open source" pour forcer les devs a fournir leurs secrets de fabrication des données. Il vaut mieux créer un nouveau terme.
Le 06/01/2025 à 20h50
M. Clavey, en France, il y a une structure (asso) qui fédère la très grande majorité des #ENL (entreprises du numérique libre) du pays, le CNLL.fr
Et au niveau européen 🇪🇺 apell.info, grâce au CNLL, OSB-alliance (D), COSS... https://apell.info/front-page/members/
Sur le "sujet" (vraiment pas simple) il me semble avoir vu passé une "position" du cnll (?) et c'est un des sujets "chauds" abordés en décembre sur l'OSB-a Connect à Berlin, #DINAcon de ch-open à Bern et l'OSXP à Paris.
En ce qui concerne "maintenir l'intégrité des principes de l'Open Source" tout le monde fait du business mais avec des méthodes qui peuvent être très divergentes (côté intégrité aussi) et ce qu'a réussi à faire le CNLL (avec ses membres) et continuer de faire (avec APELL entre autre...) est remarquable 👏👍
Hier à 11h22