Stack Overflow face à une révolte contre son accord avec OpenAI
La pile de données
Après la signature du contrat avec OpenAI permettant à l'entreprise d'entrainer ses grands modèles de langage sur les contenus publiés sur son site, Stack Overflow fait face à des utilisateurs mécontents qui ont essayé de supprimer leurs anciens posts. Le site a bloqué toutes les possibilités de retirer le contenu qu'il héberge.
Le 15 mai à 10h53
4 min
IA et algorithmes
IA
En début de semaine dernière, Stack Overflow a annoncé la signature d'un contrat avec OpenAI. Mais depuis et comme l'a repéré The Verge, une partie de la communauté du site est en colère, certains utilisateurs s'opposent à ce que les questions et réponses qu'ils ont rédigées pendant des années soient vendues et utilisées pour alimenter l'entrainement des modèles d'OpenAI.
Ainsi, comme il l'explique sur son compte Mastodon, l'utilisateur benui a essayé en début de semaine dernière de supprimer ses réponses les mieux notées. Mais il s'est rendu compte que ce n'était pas possible, car Stack Overflow ne permet pas de supprimer des réponses acceptées considérant qu'elles participent à la connaissance bâtie par la communauté de ses utilisateurs.
Benui a finalement décidé de modifier ses réponses en les remplaçant par un message critiquant l'accord avec OpenAI. Mais il explique qu'une heure après, des modérateurs avaient remis la réponse initiale et suspendu son compte pour 7 jours.
Questions et réponses sous licence Creative Commons BY-SA
Depuis, d'autres utilisateurs ont aussi témoigné de cette impossibilité de manifester son refus de l'utilisation de son contenu dans le cadre de l'accord entre Stack Overflow et OpenAI.
Les conditions générales du site expliquent que « vous ne pouvez pas révoquer l'autorisation donnée à Stack Overflow de publier, distribuer, stocker et utiliser ce contenu et de permettre à d'autres personnes d'avoir des droits dérivés pour publier, distribuer, stocker et utiliser ce contenu ».
Le site impose aussi à tous ses utilisateurs de la licence Creative Commons 4.0 BY-SA qui est la licence la plus permissive. Cette licence, utilisée aussi par Wikipédia, permet à n'importe qui, dans n'importe quel but, même commercial, de réutiliser le contenu.
Rappelons aussi qu'il existe déjà depuis quelques années un outil permettant de télécharger l'intégralité de Stack Overflow. Ce projet a été mis en place en collaboration avec le français Kiwix et récupère (« scrap ») les questions/réponses du site pour créer des versions « hors ligne ».
Même sans les accords commerciaux de Stack Overflow, des entreprises peuvent se servir d'une version hors ligne comportant toutes les questions/réponses en licence Creative Commons BY-SA pour entrainer leurs modèles.
Des utilisateurs qui se sentent trahis
Mais Christian Hujer, utilisateur du site, explique sous l'annonce de Stack Overflow que le problème pour lui va au-delà des aspects légaux : « je me sens bafoué, trompé, trahi et exploité ». Lui aussi ajoute qu'il va supprimer son compte, même s'il sait que ses questions et réponses ne seront pas supprimées avec.
Cette fronde des utilisateurs de Stack Overflow n'est pas sans rappeler celle qu'a connue Reddit l'année dernière contre le passage de son API en payant. Le réseau social a finalement réussi à « normaliser » la situation après des mois de remous au sein de sa communauté. On ne sait pas si le mouvement de protestation de la communauté de Stack Overflow va suivre cette voie et à quelle vitesse, mais ce genre d'accords risque de freiner les utilisateurs à participer à la vie de plateformes de ce genre.
Stack Overflow face à une révolte contre son accord avec OpenAI
-
Questions et réponses sous licence Creative Commons BY-SA
-
Des utilisateurs qui se sentent trahis
Commentaires (36)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 15/05/2024 à 11h12
Un sujet que Bruno Patino évoque très bien dans ses livres. C'est un passage douloureux mais nécessaire pour avoir une prise de conscience globale (je l'espère), et voir le web évoluer vers autre chose que la mainmise d'une poignée d'entreprises.
Le 15/05/2024 à 11h22
Le principe des grandes platformes est et restera de monétisé la création de valeur de leurs utilisateurs
Modifié le 15/05/2024 à 11h36
C'est pas compliqué pourtant.
Le 15/05/2024 à 12h26
Qu'on utilise ton texte/code pour nourrir une IA qui n'est pas capable de dire que c'est tes texte et ton code qu'elle régurgite (après l'avoir mélangé à plein d'autre).
En fait c'est un pb proche du "remix" en musique : il faut citer les morceaux d'origine quand on les sample. MAis bon si OpenAI le fait pour du contenu CC-BY-SA ça voudrait ire qu'il doit respecter les autres licences des code qu'il pompe... et pour les code GPL ça va poser des grooooooooos pb pour les zozo qui utilise les "aide au code" si ça rend leur code GPL automatiquement.
Le 15/05/2024 à 12h47
Dans ses réponse il met des ^1 ² ³ avec en bas les liens pour étayer ses propos.
Le 15/05/2024 à 15h58
Et ouais le bilan carbon de ce genre de truc est déplorable tellement c'est sous optimisé juste parce que les modèles ont pas été pensé pour prendre en compte le concept de paternité mais juste "produire du résultat".
Le 16/05/2024 à 14h07
Modifié le 15/05/2024 à 13h01
Pour moi, si StackOverFlow propose des données sous CC BY SA, le modèle d'IA devient sous CC BY SA automatiquement.
Le 15/05/2024 à 15h46
L'équipe de stackOverflow a d'ailleurs semi-anticipé le truc : ils ont demandé à OpenAI de bien mentionné que la réponse vient de "la communauté StackOverflow" sauf que... le "BY" de la CC-BY-SA ne pointe pas vers StackOverflow mais bien vers l'auteur du commentaire/de la réponse/de la question et pas vers "la communauté". L'équivalent musical ça serait de pomper une chanson de Shakira et de créditer "la communauté de la chanson colombienne" comme si ça suffisait à référencer l'auteure...
Le 15/05/2024 à 17h13
Le 15/05/2024 à 11h26
Parce que bon elle est assez claire et permissive comme le dit l'article, et donc il faut vraiment vivre au pays des bisounours pour s'imaginer que l'exploitation commerciale des posts n'allait jamais se produire...
Bref, intéressez vous à la license avant de poster quoi que ce soit sur Internet... Mais ne venez pas pleurer après.
Le 15/05/2024 à 11h36
CC BY-SA 2.5 (until April 2011)
CC BY-SA 3.0 (until May 2018)
CC BY-SA 4.0
Donc sous cette licence depuis le début (2008).
Le 15/05/2024 à 12h21
Tout d'abord, elle indique bien que les droits moraux ne sont pas accordés par cette licence ; or, ces droits moraux permettent en France de se repentir quitte à devoir indemniser le préjudice. On peut aussi "En cas d'abus notoire dans l'usage" soumettre le litige devant un tribunal et ici, il est possible que le tribunal décide que l'usage ne pouvait pas être prévu (au moins pour le contenu d'il y a 2 ans ou plus).
Mais surtout, les œuvres dérivées doivent appliquer la même licence, ce qui fait que tout ce qui est produit par OpenAI depuis StackOverflow devra avoir une licence libre CC BY-SA ou compatible : le Open de OpenAI reprend ici tout son sens !
De plus, la clause d'attribution oblige OpenAI à identifier les auteurs.
Enfin cette licence s'appuie sur le droit d'auteur et l'œuvre dérivée est aussi soumise aux droits d'auteur (ou droits connexes). Je ne suis pas sûr qu'un modèle comme GPT soit soumis au droit d'auteur puisqu'il n'est pas produit par des humains. Le sujet a déjà été abordé ici sur les œuvres produites par de l'IA parce que non produites par des humains. Dans ce cas, OpenAI ne peut pas utiliser le fait que le contenu de StackOverflow soit sous licence CC BY-SA si le produit dérivé n'est pas une œuvre soumise au droit d'auteur.
Cette licence apporte donc plein de choses très intéressantes mais pas forcément en faveur de StackOverflow et OpenAI.
Le 15/05/2024 à 13h24
Mais. Car il y a un mais.
Imaginons qu'en tant qu'être humain j'écume les posts de Stack Overflow concernant le composant Contoso. À force de lire ces posts, et en lisant aussi d'autres sources, je deviens un expert dans le comportement de ce composant et je deviens capable de l'utiliser efficacement.
Si j'écris un livre intitulé "Le composant Contoso pour les nuls", est-ce que je suis obligé par la licence de Stack Overflow que mon bouquin soit lui aussi CC BY-SA bien que l'intégralité de ce qui est dit a été écrit par moi ? Sans cut-and-paste de Stack Overflow, même si, de fait, mes propres appels à la librairie vont forcément ressembler à ceux proposés par Stack Overflow ? Suis-je obligé de citer explicitement tous les posts, tous les sites que j'ai lus, même si je serais bien incapable de me rappeler où j'ai bien pu apprendre la raison pour laquelle la foncton Foo prend un booléen et pas un entier ?
Est-il raisonnable que les gens qui ont contribué à Stack Overflow se sentent massivement floués par mon livre ?
À mon sens, ce que je peux faire comme humain doit se traduire mot pour mot dans ce que peut faire une intelligence artificielle si effectivement ses réponses combinent de manière novatrice plusieurs sources... Le fait que l'IA soit capable de le faire significativement plus vite que moi ne change rien au travail qui a été accompli.
Le 15/05/2024 à 14h49
Le 15/05/2024 à 15h14
Je m'explique :
- le site est uniquement en anglais,
- le site est uniquement disponible sur des .com
- la compagnie derrière Stack Overflow est américaine
- je ne suis même pas certains qu'il existe une filiale France qui pourrait faire que le droit français s'y applique d'une manière ou d'une autre.
Mais tu as tout à fait raison sinon. Ici, la question n'est donc pas de savoir si les droits moraux sont cessibles ou pas (puisqu'ils ne le sont pas en France), mais si le droit français peut s'appliquer. Si un juriste des questions internationales passe dans le coin ^^
A noter également qu'il existe au moins un pied dans la porte aux droits moraux en France : les développeurs salariés. Les logiciels sont soumis au droit d'auteur, mais l'auteur salarié du logiciel ne dispose d'aucun droit dessus, sauf accord (par exemple, dans le contrat de travail). Et si le salarié dispose encore des droits moraux dans ce cas ci (car ils sont incessibles), ils sont malgré tout amoindris. Exit le droit de divulgation. Exit aussi le droit au respect ou de retrait. Il ne reste guère que le droit de paternité.
Le 15/05/2024 à 16h39
Le 16/05/2024 à 16h20
Dans le sens où c'est automatique, pour les autres professions, ça doit figurer dans le contrat de travail.
Le 16/05/2024 à 16h11
Mais ça n'empêche pas que le droit du côté français s'applique...
Le 16/05/2024 à 16h45
- est-ce que la personne était en France au moment de la rédaction de son contenu ?
- est-ce que l'IP enregistré pour la rédaction était une adresse IP française (je pense à l'utilisation de VPN)
- est-ce qu'il faut que la personne soit un ressortissant français ?
- est-ce que si la personne à la double nationalité française / américaine, est-ce que le droit français s'applique si la personne vit aux Etats-Unis ? Et si elle vit en France ? Et si elle est entre les deux ?
- est-ce qu'il faut que la personne soit un ressortissant français sur le sol français ?
- est-ce qu'il faut que la personne soit un ressortissant de l'Union Européenne sur le sol français ?
- et si c'est un français qui habite en Suisse, travaille en Italie pour le compte d'une société allemande ?
Et je n'ai abordé que le point de vue du rédacteur. On pourrait presque tenir le même raisonnement sur la société exploitante :
- est-ce que le site est en français ?
- est-ce qu'il y a un nom de domaine en .fr ?
- est-ce qu'il y a une succursale en France ?
Bref, je suppose que tu vois où je veux en venir. Les discussions relatives aux droits d'auteur sont complexes de base, alors quand on y ajoute un contexte international...
Le 17/05/2024 à 03h23
Le 17/05/2024 à 07h32
Le 15/05/2024 à 15h48
Le 15/05/2024 à 12h11
A central problem with allowing copyright suits against ML [machine learning] is that the value and benefit of the system’s use is generally unrelated to the purpose of copyright.”
Creative Commons
Au contraire l'accord avec Stackoverflow permet de se rapproche du CC puisqu'ils veulent qu'openAI créditent la communauté dans les réponses :
Attribution is something that we believe strongly in. Having credit attributed is a non-negotiable for us, and is a critical part of any and all partnerships of this type. There aren’t specific details yet because the work is just starting, but making sure attribution is happening (in a license-compliant way) is a commitment we require and have received from our partners. This is the very heart of socially responsible AI.
https://meta.stackexchange.com/questions/399619/our-partnership-with-openai/399630#399630
Bon à mon avis ce sera vite oublié...
Bref ca permet juste à stackoverflow de reprendre un semblant de contrôle sur le fait qu'openAI pompe leur site et pour openai ca leur fait une bonne pub et leur éviter un possible procès que ca rentre dans le cadre du fair-use ou non.
Le 15/05/2024 à 12h30
Le 15/05/2024 à 12h49
Ensuite, en pratique, ici, je ne sais pas dire si la licence oblige à une attribution individuelle pour chaque partie de l'œuvre. Je ne sais même pas si tout le site StackOverflow doit être considéré comme une œuvre unique ou bien chaque page ou encore chaque contribution à une page. Si c'est l'ensemble qui est une œuvre (ils parlent de "Creative Commons Data Dump"), une attribution citant l'ensemble des contributeurs devrait suffire. Mais dans ce cas, OpenAI doit faire cette attribution en utilisant tous le pseudonyme de ceux qui ont participé.
Le 15/05/2024 à 15h54
Mais en terme d'attribution, dire que "Whenever Whatever" est de "Shakira et George Brassens" est aussi peu légal que de ne pas créditer Shakira. Car il ne s'agit pas d'une œuvre collective puisque chaque élément à un auteur déterminé (alors que par exemple une chanson "des Beatles" c'est une œuvre collective si elle a été signée par le groupe en entier <-- ouais ya des cas plus compliqué comme la chanson "Back in Black" d'AC/DC où on a jamais bien pu déterminer si elle avait été écrite en partie par le chanteur du groupe décédé avant l'enregistrement et donc si ses descendant avait droit de toucher des droits dessus...).
Mais clairement juste dire "nan mais on peut pas on peut pas" c'est débile (mais un tribunal a déjà validé des trucs plus con en matière de licence/peternité/etc) et mettre juste la commu StackOverflow comme auteur c'est cracher à la gueule des contributeurs tout en étant là-aussi ultra borderline sur la licence (once again va falloir qu'on attende le procès).
Le 15/05/2024 à 17h26
Le 15/05/2024 à 19h46
Le 15/05/2024 à 17h17
Le 15/05/2024 à 19h42
Dans l'UE, le problème est réglé par la directive (UE) 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique qui permet l'apprentissage par les IA mais qui permet aussi aux titulaires des droit de s'opposer à ces "fouilles de texte et de données". On a été bien en avance sur les USA pour cette fois.
Le 15/05/2024 à 21h50
Oui, on voit bien l'avance vertigineuse de l'Europe sur l'IA. Je suis sûr que la magie de la réglementation nous promet un avenir radieux dans le domaine.
Le 16/05/2024 à 10h01
Je ne dis pas que tu as tort, je dis juste que rien n'est encore tranché. En particulier, la possibilité de s'opposer à l'utilisation de son œuvre est un choix important qui n'est pas tranché. L'UE offre cette possibilité et CreativeCommons le demande.
Le binaire, c'est bien pour les ordinateurs, moins pour les débats entre humains.
Le 15/05/2024 à 18h27
L'organisme considère l'entraînement de l'IA comme du fair use au regard du Copyright US.
Le 15/05/2024 à 18h45
Le 15/05/2024 à 21h50