La définition de l’IA ouverte divise encore le milieu

La bataille se rejoue

Illustration : Flock

Martin Clavey

Le 06 janvier 2025 à 15h09

En octobre dernier, l’Open Source Initiative a publié la version 1.0 de sa définition de l’IA ouverte, mais des acteurs du milieu du logiciel libre n’en sont pas satisfaits. Ils s’organisent autour de Sam Johnston pour peser sur la définition qui sera utilisée en Europe lors du AI Action Summit organisé par l’Élysée les 10 et 11 février.

La définition de l’IA ouverte divise encore le milieu

La bataille se rejoue

Illustration : Flock

Martin Clavey

Le 06 janvier 2025 à 15h09

IA et algorithmes

5 min

La définition de l’IA ouverte (le terme utilisé internationalement est « open source ») est un enjeu important dans la régulation du secteur. L’AI Act européen s’appuie notamment sur ce terme pour exonérer leurs concepteurs de certaines obligations :

« Les tiers qui rendent accessibles au public des outils, services, processus ou composants d’IA autres que des modèles d’IA à usage général ne devraient pas être tenus de se conformer aux exigences visant les responsabilités tout au long de la chaîne de valeur de l’IA, en particulier à l’égard du fournisseur qui les a utilisés ou intégrés, lorsque ces outils, services, processus ou composants d’IA sont rendus accessibles sous licence libre et ouverte ».

En octobre, l’Open Source Initiative (OSI) a publié la version 1.0 de sa définition de l’IA. Pendant les différentes phases d’élaboration de cette définition, les informations sur les données utilisées pour entrainer les IA étaient au centre des discussions. Des entreprises comme Meta, qui considère que ses modèles Llama sont les leaders de l’IA open-source, ne veulent absolument pas donner de détail sur les données qu’elles utilisent. De l’autre côté, certains acteurs de l’open source comme Linagora insistaient pour que ne soient considérées comme ouvertes que les IA dont sont connues les données d’apprentissage.

Une définition qui fait des remous du côté de Debian

Au final, la définition 1.0 de l’OSI insiste sur le besoin d’une « description complète » des données utilisées pour entrainer le modèle sans pour autant exiger que ces données soient totalement connues. Cette définition a convaincu certains acteurs comme Hugging Face, Linagora, :probabl. ou Mozilla qui l’ont officiellement approuvée.

Mais des développeurs de Debian ont eu des positions assez virulentes contre cette définition sur leur liste de discussion. L’un d’entre eux, Mo Zhou, expliquait par exemple, que « les systèmes d’IA sont des logiciels et (pour citer Bruce Perens, auteur du DFSG [Debian Free Software Guidelines] et de l’OSD [Open source definition] et fondateur de l’OSI) les données d’entraînement sont la source, de sorte que l’OSAID [open source artificial intelligence definition] est fondamentalement incompatible avec l’OSD ». Rappelons aussi que la définition de l’open source a dérivé des Debian Free Software Guidelines (DFSG), comme l’explique aussi l’OSI à la fin de son texte.

Un autre développeur de Debian opposé à la définition de l’OSI, l’australien Sam Johnston, a entamé des démarches pour construire une organisation sur une définition qui inclurait clairement la publication des données d’entrainement. Il propose notamment le brouillon d’une autre définition, qui s’appuie aussi sur la définition originelle de l’open source. Celle-ci commence par affirmer :

« L’open source ne signifie pas seulement l’accès à la source, mais la liberté pour les utilisateurs d’étudier, d’utiliser, de modifier et de partager le programme, pour n’importe quel but et sans avoir à demander la permission. Dans les cas où le logiciel repose sur des données – y compris des bases de données, des modèles ou des médias – pour sa création, sa modification ou son fonctionnement, ces données sont considérées comme faisant partie intégrante du programme et sont soumises aux mêmes exigences. »

Une nouvelle structure : l’Alliance pour l’Open Source

Nos confrères de Contexte ont obtenu sa proposition de participation au AI Action Summit (Sommet pour l’action sur l’Intelligence Artificielle) organisé par l’Élysée les 10 et 11 février dans laquelle il explique qu’une « Alliance pour l’Open Source » (AOS) est en train d’être mise en place. Celle-ci miserait notamment « sur la France en tant que centre stratégique pour encourager la collaboration et l’innovation dans le domaine de l’Open Source ».

Et étonnamment, alors que Linagora et :probabl. ont approuvé le texte de l’OSI, Sam Johnston y explique « de récentes réunions productives avec Yann Lechelle, PDG de :probabl. et Alexandre Zapolsky de LINAGORA, ont permis d’initier un effort de sensibilisation organisé pour impliquer les groupes nationaux de logiciels libres en tant que primo-adoptants et collaborateurs, contribuant ainsi a jeter les bases de la formalisation de l’AOS dans l’arène publique ».

Il espère aussi pouvoir rallier l’association April, le projet Debian, la Free Software Foundation Europe, OpenForum Europe, Linux Australia, la Free Software and Open Source Foundation for Africa, OpenUK ou encore les structures internationales que sont la Software Freedom Conservancy, la Free Software Foundation, Digital Public Goods Alliance, la fondation Linux ou la fondation Apache.

Avec cette nouvelle organisation, Sam Johnston, veut « maintenir l’intégrité des principes de l’Open Source ».

Commentaires (14)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

potn Premium

Modifié le 06/01/2025 à 15h57

C'est techniquement possible d'entraîner un modèle de langage uniquement avec des données d'entraînement "libres" ? (Y en a t-il suffisamment de disponibles ?)
C'est quoi une donnée "libre", d'ailleurs ? Une photo publiée sur un site public est-elle "libre" même si elle est protégée par le droit d'auteur ?

wanou Premium

Le 07/01/2025 à 08h07

La liberté concerne les usages que les auteur autorisent sans contre-partie.

Les oeuvres restent associés à des auteurs/autrices dont la paternité / maternité n'est pas remise en cause.

fred42 Premium

Le 06/01/2025 à 15h59

Leur proposition de définition ne tient pas la route.
Premièrement, ils sont obligés de dire que les données font partie du programme d'un logiciel qui s'appuie sur des données, ce qui est faux. Les données sont des données, pas un programme. Ils détournent la définition d'un programme pour arriver à leurs fins ce qui n'est jamais bien.

Ensuite, fournir les données d'entraînement d'une IA produite pour autre chose que la recherche est incompatible avec le droit de la propriété intellectuelle de l'UE qui autorise à copier et utiliser des données publiquement disponibles mais qui oblige de détruire ces données (sources) après l'apprentissage. Cela rend impossible l'existence d'IA open source développée dans l'UE.

tazvld Premium

Modifié le 06/01/2025 à 17h08

Est-ce que c'est aussi le cas pour des données publié dans une licence "libre" ?

Si, par exemple, je pompe tout le texte de wikipédia, j'ai l'impression (il faudra que je regarde les 2 licences données) que la licence m'autorise à garder la base de donnée tant que je garde la liste des noms des auteurs (https://fr.wikipedia.org/wiki/Wikip%C3%A9dia

roit_d%27auteur#Statut_de_Wikip%C3%A9dia_au_regard_du_droit_d'auteur). Non ?

Z-os Premium

Le 07/01/2025 à 11h32

Bonjour c'est la SACEM

fred42 Premium

Le 07/01/2025 à 14h08

Non. Ce que je cite est une exception permettant de copier provisoirement des données. Si tu as le droit (par une licence appropriée comme celles de Wikipédia) de copier des données et de les rediffuser, tu peux les garder et même les fournir à d'autres.

Delqvs Premium

Le 06/01/2025 à 18h29

Je ne vous rejoins pas vraiment, pour cette raison :
il y a un changement de paradigme avec les IA par rapport aux programmes "standards". Ce que vous appellez données sont dans ce contexte des constantes, puisque invariable après la phase de "compilation". Or tout programme, IA ou standard, sans ses constantes, n'est tout simplement pas un programme, mais seulement une suite de procédures qui ne peuvent pas fonctionner entre elles.

Pour le deuxième point, des efforts sont déjà consacrées pour que ces "constantes" d'entrainement soient publiques et commune, par exemple https://commoncrawl.org/. Il y en a de nombreux autres. Je ne vois pas en quoi une IA open source européenne ne pourrait pas exister, basées sur ces sets de données.

jotak Premium

Le 06/01/2025 à 18h31

On peut tout de même acter qu'une IA de ce type différe suffisamment des logiciels traditionnels, justement du fait ques les données utilisées lors de l'apprentissage façonnent le programme final, et donc qu'elles ont un rôle prépondérant, pour justifier d'une définition spécifique qui tient mieux compte de ces données.

Sinon j'ai pas bien saisi le passage sur l'incompatibilité avec les lois UE, en quoi ça rendrait impossible l'utilisation de données libres ?

white_tentacle Premium

Le 07/01/2025 à 07h51

Les images sont des données, et font partie du programme. D’ailleurs, chez debian, ils ont rebrandé firefox pour justement cette raison, car Mozilla avait une licence non libre pour ces images (depuis, ça s’est détendu des deux côtés pour arriver à un compromis).

Pour dire « ça ne tient pas la route », il faut argumenter un peu plus. Parce que j’ai du mal à voir en quoi la phase d’apprentissage est conceptuellement différente d’une phase de compilation : on prend tout un tas de données sources, et à partir de ça on en produit un binaire, phase non réversible car on ne peut pas revenir simplement du binaire aux sources.

Enfin ton dernier paragraphe ressemble à du FUD. Par exemple, avec des données dans le domaine public il n’y a aucun soucis.

fred42 Premium

Le 07/01/2025 à 10h50

Un programme est le résultat d'une suite d'instructions dans un langage informatique, compilé si le langage l'est, interprété sinon. Ce n'est pas le cas des données résultant d'une phase d'apprentissage d'une IA.
Un programme traite des données et les images font partie de ces données. Les bases de données ont par exemple un statut particulier dans le droit de la propriété intellectuelle (Articles L341-1 à L343-7 du code de la propriété intellectuelle). Les données d'une IA sont bien plus proches des bases de données que d'un programme.
C'est d'autant plus vrai qu'on peut lire dans l'article :

Dans les cas où le logiciel repose sur des données - y compris des bases de données, des modèles ou des médias - pour sa création, sa modification ou son fonctionnement, ces données sont considérées comme faisant partie intégrante du programme et sont soumises aux mêmes exigences.

Quant à ton accusation de FUD, laisse moi rire. Quelle IA est construite uniquement à partir de données dans le domaine public ?
Oui, tu as raison en théorie, une IA entraînée uniquement avec des données du domaine public peut être considérée comme ouverte au sens qu'ils veulent donner, mais c'est bien le seul cas. On peut par exemple envisager une IA ayant comme source de données Wikipédia.
Mais ces IA seront bien plus limitées que les IA actuelles.

white_tentacle Premium

Le 08/01/2025 à 08h07

Je vois que tu n’as apporté aucun nouvel argument, te contentant de répéter que les données ne sont pas le programme, et donc que la notion d’open source ne doit pas les concerner. C’est ta vision, mais comme dit, c’est léger pour dire que toute autre vision ne « tient pas la route ».

Chez debian, ils sont très clairs sur ce qui fait un logiciel libre. Et les données en font partie, de même que, par exemple, la chaîne de compilation (un logiciel dont le source est disponible, mais qui ne peut être construit qu’avec un compilateur dont le source n’est pas disponible, n’est pas libre). Encore une fois, tu peux être en désaccord avec cette vision, mais elle est cohérente, argumentée et tout à fait logique.

127.0.0.1

Modifié le 06/01/2025 à 17h19

Je m'aligne avec l'avis des dev Debian:

On doit pouvoir faire le même usage du logiciel lorsqu'il est dans sa forme précompilé et dans sa forme (re)construite à partir de la source. Si on ne peut pas en faire le même usage parce qu'il manque des composants, c'est que la source était incomplète.

Cf. l'exemple avec le 'jeu Quake' versus la 'game engine Quake'.

Paradoxalement, je suis également d'accord avec la remarque Fred42: il ne faut pas modifier la définition existante du terme "open source" pour forcer les devs a fournir leurs secrets de fabrication des données. Il vaut mieux créer un nouveau terme.

FAubriot Premium

Le 06/01/2025 à 20h50

"Diviser pour mieux régner"

M. Clavey, en France, il y a une structure (asso) qui fédère la très grande majorité des #ENL (entreprises du numérique libre) du pays, le CNLL.fr
Et au niveau européen 🇪🇺 apell.info, grâce au CNLL, OSB-alliance (D), COSS... https://apell.info/front-page/members/
Sur le "sujet" (vraiment pas simple) il me semble avoir vu passé une "position" du cnll (?) et c'est un des sujets "chauds" abordés en décembre sur l'OSB-a Connect à Berlin, #DINAcon de ch-open à Bern et l'OSXP à Paris.
En ce qui concerne "maintenir l'intégrité des principes de l'Open Source" tout le monde fait du business mais avec des méthodes qui peuvent être très divergentes (côté intégrité aussi) et ce qu'a réussi à faire le CNLL (avec ses membres) et continuer de faire (avec APELL entre autre...) est remarquable 👏👍

freecoffee Premium

Le 07/01/2025 à 11h22

Ah, si Linagora prend position alors on est tous sauvés.