Stack Overflow face à une révolte contre son accord avec OpenAI

La pile de données

Après la signature du contrat avec OpenAI permettant à l'entreprise d'entrainer ses grands modèles de langage sur les contenus publiés sur son site, Stack Overflow fait face à des utilisateurs mécontents qui ont essayé de supprimer leurs anciens posts. Le site a bloqué toutes les possibilités de retirer le contenu qu'il héberge.

Martin Clavey

Le 15 mai à 10h53

4 min

IA et algorithmes

En début de semaine dernière, Stack Overflow a annoncé la signature d'un contrat avec OpenAI. Mais depuis et comme l'a repéré The Verge, une partie de la communauté du site est en colère, certains utilisateurs s'opposent à ce que les questions et réponses qu'ils ont rédigées pendant des années soient vendues et utilisées pour alimenter l'entrainement des modèles d'OpenAI.

Stack Overflow signe avec OpenAI

Ainsi, comme il l'explique sur son compte Mastodon, l'utilisateur benui a essayé en début de semaine dernière de supprimer ses réponses les mieux notées. Mais il s'est rendu compte que ce n'était pas possible, car Stack Overflow ne permet pas de supprimer des réponses acceptées considérant qu'elles participent à la connaissance bâtie par la communauté de ses utilisateurs.

Benui a finalement décidé de modifier ses réponses en les remplaçant par un message critiquant l'accord avec OpenAI. Mais il explique qu'une heure après, des modérateurs avaient remis la réponse initiale et suspendu son compte pour 7 jours.

Questions et réponses sous licence Creative Commons BY-SA

Depuis, d'autres utilisateurs ont aussi témoigné de cette impossibilité de manifester son refus de l'utilisation de son contenu dans le cadre de l'accord entre Stack Overflow et OpenAI.

Les conditions générales du site expliquent que « vous ne pouvez pas révoquer l'autorisation donnée à Stack Overflow de publier, distribuer, stocker et utiliser ce contenu et de permettre à d'autres personnes d'avoir des droits dérivés pour publier, distribuer, stocker et utiliser ce contenu ».

Le site impose aussi à tous ses utilisateurs de la licence Creative Commons 4.0 BY-SA qui est la licence la plus permissive. Cette licence, utilisée aussi par Wikipédia, permet à n'importe qui, dans n'importe quel but, même commercial, de réutiliser le contenu.

Rappelons aussi qu'il existe déjà depuis quelques années un outil permettant de télécharger l'intégralité de Stack Overflow. Ce projet a été mis en place en collaboration avec le français Kiwix et récupère (« scrap ») les questions/réponses du site pour créer des versions « hors ligne ».

Même sans les accords commerciaux de Stack Overflow, des entreprises peuvent se servir d'une version hors ligne comportant toutes les questions/réponses en licence Creative Commons BY-SA pour entrainer leurs modèles.

Des utilisateurs qui se sentent trahis

Mais Christian Hujer, utilisateur du site, explique sous l'annonce de Stack Overflow que le problème pour lui va au-delà des aspects légaux : « je me sens bafoué, trompé, trahi et exploité ». Lui aussi ajoute qu'il va supprimer son compte, même s'il sait que ses questions et réponses ne seront pas supprimées avec.

Cette fronde des utilisateurs de Stack Overflow n'est pas sans rappeler celle qu'a connue Reddit l'année dernière contre le passage de son API en payant. Le réseau social a finalement réussi à « normaliser » la situation après des mois de remous au sein de sa communauté. On ne sait pas si le mouvement de protestation de la communauté de Stack Overflow va suivre cette voie et à quelle vitesse, mais ce genre d'accords risque de freiner les utilisateurs à participer à la vie de plateformes de ce genre.

Commentaires (36)

Furanku Abonné

Le 15/05/2024 à 11h12

La désillusion au sujet des grandes plateformes, à qui nous avons tout donné :)

Un sujet que Bruno Patino évoque très bien dans ses livres. C'est un passage douloureux mais nécessaire pour avoir une prise de conscience globale (je l'espère), et voir le web évoluer vers autre chose que la mainmise d'une poignée d'entreprises.

kazord Abonné

Le 15/05/2024 à 11h22

+1, si tu pense que tes messages laissé gentiment ne seront pas réutilisé a des fins commerciales alors que tu as accepté les conditions d'utilisations, c'est toi qui est dans l'erreur, pas Stackoverflow.

Le principe des grandes platformes est et restera de monétisé la création de valeur de leurs utilisateurs

aureus

Modifié le 15/05/2024 à 11h36

+1 arrêtez de poster sur internet si vous voulez pas qu'on exploite vos messages à des fins commerciales.

C'est pas compliqué pourtant.

pymaldebaran Abonné

Le 15/05/2024 à 12h26

A un petit détail près : ici la licence des contenus est CC-BY-SA (et c'est imposé par StackOverflow pour toutes les question et réponses) donc toute réutilisation, par exemple par OpenAI devrait mentionner les auteurs du code ou de l'explication originale... ce qu'OpenAI dit "techniquement pas possible" car on ne peut pas remonter à la source.

Qu'on utilise ton texte/code pour nourrir une IA qui n'est pas capable de dire que c'est tes texte et ton code qu'elle régurgite (après l'avoir mélangé à plein d'autre).

En fait c'est un pb proche du "remix" en musique : il faut citer les morceaux d'origine quand on les sample. MAis bon si OpenAI le fait pour du contenu CC-BY-SA ça voudrait ire qu'il doit respecter les autres licences des code qu'il pompe... et pour les code GPL ça va poser des grooooooooos pb pour les zozo qui utilise les "aide au code" si ça rend leur code GPL automatiquement.

Jungledede Abonné

Le 15/05/2024 à 12h47

Bing Chat le fait plutot bien je trouve.
Dans ses réponse il met des ^1 ² ³ avec en bas les liens pour étayer ses propos.

pymaldebaran Abonné

Le 15/05/2024 à 15h58

Et si je me souviens bien il le fait de manière assez... détournée (mais je ne retrouve plus ma source... grrrr) c'est à dire qu'il génère une réponse puis fait une requête interne Bing pour déterminer si ça ressemble à des trucs qu'il aurait crawler (il tape uniquement dans ce qui lui a servi de base d'entrainement). Puis il ajoute les ref... car eux aussi n'ont pas accès au lien entre entrainement et machin ressorti au final.

Et ouais le bilan carbon de ce genre de truc est déplorable tellement c'est sous optimisé juste parce que les modèles ont pas été pensé pour prendre en compte le concept de paternité mais juste "produire du résultat".

Jungledede Abonné

Le 16/05/2024 à 14h07

en effet, c'est mieux que rien, mais on est assez proche de l'écran de fumée donc.

Soriatane Abonné

Modifié le 15/05/2024 à 13h01

En effet, une vue juridique manque à cette article. À quel point, la CC By SA s'impose lors du réemploi?

Pour moi, si StackOverFlow propose des données sous CC BY SA, le modèle d'IA devient sous CC BY SA automatiquement.

pymaldebaran Abonné

Le 15/05/2024 à 15h46

C'est assez compliqué car le modèle lui-même on ne peut montrer qu'il contient le contenu ou une partie du texte initial... par contre en regurgitant du texte quasi identique (genre en réponse à une même question) alors là le texte produit est beaucoup plus ambigu

L'équipe de stackOverflow a d'ailleurs semi-anticipé le truc : ils ont demandé à OpenAI de bien mentionné que la réponse vient de "la communauté StackOverflow" sauf que... le "BY" de la CC-BY-SA ne pointe pas vers StackOverflow mais bien vers l'auteur du commentaire/de la réponse/de la question et pas vers "la communauté". L'équivalent musical ça serait de pomper une chanson de Shakira et de créditer "la communauté de la chanson colombienne" comme si ça suffisait à référencer l'auteure...

psikobare

Le 15/05/2024 à 17h13

le produit de la réutilisation de ces contenus c'est le modèle, pas les réponses données lorsque l'on interroge le modèle. Il suffit donc qu'Openai indique clairement que SO est une source de son modèle, ce qu'ils font.

zoc Abonné

Le 15/05/2024 à 11h26

Je n'ai pas de compte sur StackOverflow, du coup je pose une question: La license Creative Commons 4.0 BY-SA est celle utilisée depuis toujours sur ce site où il y a eu du changement ?

Parce que bon elle est assez claire et permissive comme le dit l'article, et donc il faut vraiment vivre au pays des bisounours pour s'imaginer que l'exploitation commerciale des posts n'allait jamais se produire...

Bref, intéressez vous à la license avant de poster quoi que ce soit sur Internet... Mais ne venez pas pleurer après.

Furanku Abonné

Le 15/05/2024 à 11h36

Selon Wikipedia :

CC BY-SA 2.5 (until April 2011)
CC BY-SA 3.0 (until May 2018)
CC BY-SA 4.0

Donc sous cette licence depuis le début (2008).

fred42 Abonné

Le 15/05/2024 à 12h21

En fait, la licence CC BY-SA est très intéressante. Comme tu le dis, il faut la lire.

Tout d'abord, elle indique bien que les droits moraux ne sont pas accordés par cette licence ; or, ces droits moraux permettent en France de se repentir quitte à devoir indemniser le préjudice. On peut aussi "En cas d'abus notoire dans l'usage" soumettre le litige devant un tribunal et ici, il est possible que le tribunal décide que l'usage ne pouvait pas être prévu (au moins pour le contenu d'il y a 2 ans ou plus).

Mais surtout, les œuvres dérivées doivent appliquer la même licence, ce qui fait que tout ce qui est produit par OpenAI depuis StackOverflow devra avoir une licence libre CC BY-SA ou compatible : le Open de OpenAI reprend ici tout son sens !

De plus, la clause d'attribution oblige OpenAI à identifier les auteurs.

Enfin cette licence s'appuie sur le droit d'auteur et l'œuvre dérivée est aussi soumise aux droits d'auteur (ou droits connexes). Je ne suis pas sûr qu'un modèle comme GPT soit soumis au droit d'auteur puisqu'il n'est pas produit par des humains. Le sujet a déjà été abordé ici sur les œuvres produites par de l'IA parce que non produites par des humains. Dans ce cas, OpenAI ne peut pas utiliser le fait que le contenu de StackOverflow soit sous licence CC BY-SA si le produit dérivé n'est pas une œuvre soumise au droit d'auteur.

Cette licence apporte donc plein de choses très intéressantes mais pas forcément en faveur de StackOverflow et OpenAI.

33A20158-2813-4F0D-9D4A-FD05E2C42E48

Le 15/05/2024 à 13h24

Je suis tout bien d'accord avec ce qui est dit ici à propos de cette licence et de la réutilisation du texte.

Mais. Car il y a un mais.

Imaginons qu'en tant qu'être humain j'écume les posts de Stack Overflow concernant le composant Contoso. À force de lire ces posts, et en lisant aussi d'autres sources, je deviens un expert dans le comportement de ce composant et je deviens capable de l'utiliser efficacement.

Si j'écris un livre intitulé "Le composant Contoso pour les nuls", est-ce que je suis obligé par la licence de Stack Overflow que mon bouquin soit lui aussi CC BY-SA bien que l'intégralité de ce qui est dit a été écrit par moi ? Sans cut-and-paste de Stack Overflow, même si, de fait, mes propres appels à la librairie vont forcément ressembler à ceux proposés par Stack Overflow ? Suis-je obligé de citer explicitement tous les posts, tous les sites que j'ai lus, même si je serais bien incapable de me rappeler où j'ai bien pu apprendre la raison pour laquelle la foncton Foo prend un booléen et pas un entier ?

Est-il raisonnable que les gens qui ont contribué à Stack Overflow se sentent massivement floués par mon livre ?

À mon sens, ce que je peux faire comme humain doit se traduire mot pour mot dans ce que peut faire une intelligence artificielle si effectivement ses réponses combinent de manière novatrice plusieurs sources... Le fait que l'IA soit capable de le faire significativement plus vite que moi ne change rien au travail qui a été accompli.

xlp Abonné

Le 15/05/2024 à 14h49

En France les droits moraux sont inaliénables, peu importe ce que dit un contrat ou licence...

fdorin Abonné

Le 15/05/2024 à 15h14

Certes, mais est-ce que le droit français est applicable ici ?

Je m'explique :
- le site est uniquement en anglais,
- le site est uniquement disponible sur des .com
- la compagnie derrière Stack Overflow est américaine
- je ne suis même pas certains qu'il existe une filiale France qui pourrait faire que le droit français s'y applique d'une manière ou d'une autre.

Mais tu as tout à fait raison sinon. Ici, la question n'est donc pas de savoir si les droits moraux sont cessibles ou pas (puisqu'ils ne le sont pas en France), mais si le droit français peut s'appliquer. Si un juriste des questions internationales passe dans le coin ^^

A noter également qu'il existe au moins un pied dans la porte aux droits moraux en France : les développeurs salariés. Les logiciels sont soumis au droit d'auteur, mais l'auteur salarié du logiciel ne dispose d'aucun droit dessus, sauf accord (par exemple, dans le contrat de travail). Et si le salarié dispose encore des droits moraux dans ce cas ci (car ils sont incessibles), ils sont malgré tout amoindris. Exit le droit de divulgation. Exit aussi le droit au respect ou de retrait. Il ne reste guère que le droit de paternité.

wagaf Abonné

Le 15/05/2024 à 16h39

Ça ne date pas du code, un ingénieur salarié ne possède pas de droit moral sur les plans ou les schémas qu'il créé il me semble, ça appartient à son employeur.

xlp Abonné

Le 16/05/2024 à 16h20

Sauf erreur de ma part, c'est une disposition particulière pour l'informatique. Du moins est-ce ce qu'o' m'a enseigné.

Dans le sens où c'est automatique, pour les autres professions, ça doit figurer dans le contrat de travail.

xlp Abonné

Le 16/05/2024 à 16h11

Je suppose que le contrat stipule que le droit applicable est le droit US, sûrement d'un état en particulier.
Mais ça n'empêche pas que le droit du côté français s'applique...

fdorin Abonné

Le 16/05/2024 à 16h45

Mais ça n'empêche pas que le droit du côté français s'applique...

Ca ne l'empêche pas. Mais ça ne veut pas dire non plus qu'il s'applique. C'est une question épineuse, car s'il s'applique, il faudrait déterminer les conditions dans lesquelles il s'applique :
- est-ce que la personne était en France au moment de la rédaction de son contenu ?
- est-ce que l'IP enregistré pour la rédaction était une adresse IP française (je pense à l'utilisation de VPN)
- est-ce qu'il faut que la personne soit un ressortissant français ?
- est-ce que si la personne à la double nationalité française / américaine, est-ce que le droit français s'applique si la personne vit aux Etats-Unis ? Et si elle vit en France ? Et si elle est entre les deux ?
- est-ce qu'il faut que la personne soit un ressortissant français sur le sol français ?
- est-ce qu'il faut que la personne soit un ressortissant de l'Union Européenne sur le sol français ?
- et si c'est un français qui habite en Suisse, travaille en Italie pour le compte d'une société allemande ?

Et je n'ai abordé que le point de vue du rédacteur. On pourrait presque tenir le même raisonnement sur la société exploitante :
- est-ce que le site est en français ?
- est-ce qu'il y a un nom de domaine en .fr ?
- est-ce qu'il y a une succursale en France ?

Bref, je suppose que tu vois où je veux en venir. Les discussions relatives aux droits d'auteur sont complexes de base, alors quand on y ajoute un contexte international...

xlp Abonné

Le 17/05/2024 à 03h23

Oh je vois très bien où tu veux en venir ! Et je ne sais pas qui tranche. À part le tribunal qui peut se déclarer incompétent.

fdorin Abonné

Le 17/05/2024 à 07h32

Seul un tribunal peut trancher effectivement. Et encore faut-il que la décision soit applicable par la suite (exemple typique : Clearview AI condamné à plusieurs reprises en Europe)

fred42 Abonné

Le 15/05/2024 à 15h48

Je citais la licence, mais je pense que c'est parce qu'ils savent que ça existe qu'il l'ont précisé. Mais je suis d'accord avec toi, ils auraient écrit autre chose, cela aurait été hors la loi en France donc non applicable.

aureus

Le 15/05/2024 à 12h11

Juste pour info après avoir été voir le mastodon de BenUI ca n'aurait pas grand chose à voir avec CC puisque CC indique eux-même que ca rentre dans le cadre du Fair-use :
A central problem with allowing copyright suits against ML [machine learning] is that the value and benefit of the system’s use is generally unrelated to the purpose of copyright.”

Creative Commons

Au contraire l'accord avec Stackoverflow permet de se rapproche du CC puisqu'ils veulent qu'openAI créditent la communauté dans les réponses :

Attribution is something that we believe strongly in. Having credit attributed is a non-negotiable for us, and is a critical part of any and all partnerships of this type. There aren’t specific details yet because the work is just starting, but making sure attribution is happening (in a license-compliant way) is a commitment we require and have received from our partners. This is the very heart of socially responsible AI.

https://meta.stackexchange.com/questions/399619/our-partnership-with-openai/399630#399630

Bon à mon avis ce sera vite oublié...

Bref ca permet juste à stackoverflow de reprendre un semblant de contrôle sur le fait qu'openAI pompe leur site et pour openai ca leur fait une bonne pub et leur éviter un possible procès que ca rentre dans le cadre du fair-use ou non.

pymaldebaran Abonné

Le 15/05/2024 à 12h30

Le souci étant qu'OpenAI a déjà dit qu'il ne pouvait pas remonté pour un texte généré à la/les sources car le système est en boite noire (ce qui les arrange bien au niveau légal eux et leur clients qui aimerait pas voir leur code devenir GPL car d'un coup leur "aide au code" injecte du code qui vient de Emacs...)

fred42 Abonné

Le 15/05/2024 à 12h49

Si OpenAI n'est pas capable de respecter une partie de la licence, c'est simple, ils n'utilisent pas l'œuvre. Ça, c'est pour la partie théorique.

Ensuite, en pratique, ici, je ne sais pas dire si la licence oblige à une attribution individuelle pour chaque partie de l'œuvre. Je ne sais même pas si tout le site StackOverflow doit être considéré comme une œuvre unique ou bien chaque page ou encore chaque contribution à une page. Si c'est l'ensemble qui est une œuvre (ils parlent de "Creative Commons Data Dump"), une attribution citant l'ensemble des contributeurs devrait suffire. Mais dans ce cas, OpenAI doit faire cette attribution en utilisant tous le pseudonyme de ceux qui ont participé.

pymaldebaran Abonné

Le 15/05/2024 à 15h54

Le truc c'est que avec une licence CC-BY-SA, le BY c'est l'auteur qui a rédigé le texte.

Mais en terme d'attribution, dire que "Whenever Whatever" est de "Shakira et George Brassens" est aussi peu légal que de ne pas créditer Shakira. Car il ne s'agit pas d'une œuvre collective puisque chaque élément à un auteur déterminé (alors que par exemple une chanson "des Beatles" c'est une œuvre collective si elle a été signée par le groupe en entier <-- ouais ya des cas plus compliqué comme la chanson "Back in Black" d'AC/DC où on a jamais bien pu déterminer si elle avait été écrite en partie par le chanteur du groupe décédé avant l'enregistrement et donc si ses descendant avait droit de toucher des droits dessus...).

Mais clairement juste dire "nan mais on peut pas on peut pas" c'est débile (mais un tribunal a déjà validé des trucs plus con en matière de licence/peternité/etc) et mettre juste la commu StackOverflow comme auteur c'est cracher à la gueule des contributeurs tout en étant là-aussi ultra borderline sur la licence (once again va falloir qu'on attende le procès).

psikobare

Le 15/05/2024 à 17h26

Le produit de l'assimilation du contenu de SO c'est le modèle, pas les réponses lorsque l'on interroge le modèle dans des cas particuliers. Donc il suffit à openai d'ajouter SO à la liste des sources qu'ils créditent

fred42 Abonné

Le 15/05/2024 à 19h46

Ce n'est pas SO qu'il faut citer. Ils ne sont pas les auteurs même s'ils ont les droits sur le contenu de part la licence, cette même licence demande l'attribution (la citation du ou des auteurs) et le modèle qui est une œuvre dérivée doit avoir la même licence.

psikobare

Le 15/05/2024 à 17h17

C'est donc exactement comme pour le contenu copyrighté. Le fair use s'applique et les cries d'orfraies ne servent qu'à essayer de profiter de la cacophonie pour son profit, en dépit de la règle.

fred42 Abonné

Le 15/05/2024 à 19h42

Avant d'être affirmatif comme tu l'es, on va attendre la position de l'United States Copyright Office qui a fait une enquête publique l'an dernier sur le sujet comme on peut le lire dans la page en lien mise par SebGF juste en-dessous et aussi de la justice US puisque l'on parle ici d'un problème US.

Dans l'UE, le problème est réglé par la directive (UE) 2019/790 du Parlement européen et du Conseil du 17 avril 2019 sur le droit d'auteur et les droits voisins dans le marché unique numérique qui permet l'apprentissage par les IA mais qui permet aussi aux titulaires des droit de s'opposer à ces "fouilles de texte et de données". On a été bien en avance sur les USA pour cette fois.

psikobare

Le 15/05/2024 à 21h50

Avant d'être affirmatif comme tu l'es, on va attendre la position de l'United States Copyright Office qui a fait une enquête publique l'an dernier sur le sujet comme on peut le lire dans la page en lien mise par SebGF juste en-dessous et aussi de la justice US puisque l'on parle ici d'un problème US.

Il n'y a rien d'autre à attendre de la justice US que ce que je tente de faire comprendre ici à chaque fois et que la CreativeCommons écrit aussi : la construction d'un LLM est un procédé hautement transformatif et donc couvert par le fair use.

On a été bien en avance sur les USA pour cette fois.

Oui, on voit bien l'avance vertigineuse de l'Europe sur l'IA. Je suis sûr que la magie de la réglementation nous promet un avenir radieux dans le domaine.

fred42 Abonné

Le 16/05/2024 à 10h01

On se demande vraiment pourquoi ils ont lancé cette enquête alors qu'il suffisait de demander ton expertise !

Je ne dis pas que tu as tort, je dis juste que rien n'est encore tranché. En particulier, la possibilité de s'opposer à l'utilisation de son œuvre est un choix important qui n'est pas tranché. L'UE offre cette possibilité et CreativeCommons le demande.

Le binaire, c'est bien pour les ordinateurs, moins pour les débats entre humains.

SebGF Abonné

Le 15/05/2024 à 18h27

Même sans les accords commerciaux de Stack Overflow, des entreprises peuvent se servir d'une version hors ligne comportant toutes les questions/réponses en licence Creative Commons BY-SA pour entrainer leurs modèles.

Sur ce point, je vous invite à lire la position de CreativeCommons sur le Copyright et l'IA.

L'organisme considère l'entraînement de l'IA comme du fair use au regard du Copyright US.

Thoscellen Abonné

Le 15/05/2024 à 18h45

Bien content d'avoir supprimé mes posts Reddit manuellement avant de fermer mon compte. Dommage que l'on ne puisse faire pareille sur SO.

psikobare

Le 15/05/2024 à 21h50

Pourquoi ?