Stack Overflow signe avec OpenAI

La pile d'IA déborde

L'entreprise qui gère le site web de questions/réponses sur les sujets d'informatique vient de signer un accord commercial avec OpenAI, après avoir signé avec Google fin février. Entre fournir des données d'entraînement et être envahi de contenus créés par IA générative, la ligne de crête est particulièrement fine pour Stack Overflow.

Martin Clavey

Le 07 mai à 13h09

4 min

IA et algorithmes

Lundi 6 mai, Stack Overflow a annoncé avoir signé un contrat avec OpenAI pour l'utilisation des contenus postés par les utilisateurs de son site web pour entraîner les grands modèles de langage de l'entreprise d'IA génératives. Fin février, l'entreprise avait signé un contrat semblable avec Google pour l'entraînement des modèles Gemini pour Google Cloud.

Concrètement, les deux entreprises d'IA auront accès à la nouvelle API de Stack Overflow, nommée de manière peu originale « OverflowAPI ». On n'en saura pas beaucoup plus concernant les deux contrats dont les montants n'ont pas été rendus publics.

Ces contrats d'accès à l'API du site ne sont pas exclusifs, mais l'accès à l'API de Stack Overflow est payant et contrôlé. Stack Overflow met d'ailleurs un bouton « Devenir un partenaire » en évidence sur la page de son API qui mène à un formulaire de demande d'accès qui ne permet pas d'accéder directement au service. Il faut attendre que l'entreprise reprenne contact pour en savoir plus.

Position paradoxale

Dans son communiqué, Stack Overflow, explique qu'OpenAI va utiliser son API pour intégrer les « connaissances techniques validées de Stack Overflow » dans ChatGPT pour que celui-ci améliore ses réponses concernant le code. L'entreprise insiste sur la qualité de ses contenus qui alimenteront en fait tous les outils d'OpenAI se vantant de lui donner accès à « des connaissances et des codes fiables, attribués, précis et de qualité technique élevée, soutenus par les millions de développeurs qui ont contribué à la plateforme Stack Overflow depuis 15 ans ».

Mais c'est là tout le paradoxe actuel de Stack Overflow. Celle-ci participe à la mise en place de la massification de la génération automatique de code par les nouvelles IA alors qu'elle est assise sur un trésor de codes écrits par des humains.

L'entreprise a bien compris que, pour rester un fournisseur de contenus de qualité, elle devait garder cette spécificité. Elle a donc interdit le code généré par IA dans ses forums dès décembre 2022. Si, à l'annonce, cette interdiction devait être temporaire, elle est toujours présente près d'un an et demi après.

Un moteur de recherche boosté par l'IA générative pour faire revenir le trafic

Mais Stack Overflow a pourtant décidé de prendre la vague de l'IA générative en route. En juillet 2023, l'entreprise a créé une équipe « OverflowAI » et lancé en phase alpha un moteur de recherche basé sur l'IA générative dans le but d'améliorer l'accès aux réponses de la communauté sur un sujet donné. Le moteur de recherche est sorti de sa phase alpha seulement fin mars 2024.

En effet, le site a vu son trafic diminuer depuis l'arrivée des IA génératives et de l'utilisation en masse de ChatGPT et autre Copilot par les développeurs pour répondre à leurs interrogations. Et Stack Overflow a d'ailleurs licencié 28 % de ses effectifs en octobre 2023 alors qu'elle avait doublé ses effectifs l'année d'avant. Le CEO de l'entreprise expliquait sept mois avant, en avril 2023, à Wired que 10 % de ses effectifs (alors de près de 600 employés) se concentraient sur son API et la mise en place de ses services d'IA génératives.

Ces décisions au sein de Stack Overflow semblent être prises en réaction à la vague d'IA générative sans que l'entreprise l'ait vue venir.

Commentaires (19)

Gilbert_Gosseyn Abonné

Le 07/05/2024 à 14h55

J'ai vu hier des appels au boycott de la plateforme suite à cette annonce.

Inny Abonné

Le 07/05/2024 à 15h45

Vu que la plateforme est déjà de plus en plus abandonnée parce que l'IA générative est plus accessible, c'est assez comique.

cacadenez Abonné

Le 13/05/2024 à 14h56

GPT4 me donne de temps à autre des réponses directement issues de Stack overflow. Du moins, une recherche inversée sur Google ne me donne pas d'autres sources.
Il ne faut pas négliger le fait que sans sources nouvelles, les IA génératives seront rapidement stupides dans les domaines qui concernent StackOverflow. J'ai d'ailleurs parlé il y a peu avec un dev front assez pointu qui ne trouvait pas d'intérêt à utiliser GPT4 car les infos n'étaient pas assez récentes.

versgui Abonné

Le 07/05/2024 à 15h36

Ca ressemble à un chant du cygne : SO amasse un maximum de pognon avant que le navire ne coule définitivement.

NiDé Abonné

Le 07/05/2024 à 15h38

Quelque part, rien de cela n'est surprenant.
Dans ma boite, on a tous un accès à Copilot et ChatGPT. Et presque plus personne ne va sur StackOverflow, sauf pour des cas un peu tordu.
Bref, StackOverflow perd du trafic, et ils cherchent de nouveaux moyens pour faire rentrer des sous.

Jarodd Abonné

Le 07/05/2024 à 16h30

C'est plutôt avec Yahoo qu'ils devraient signer...

Éloquent-Perroquet-performant

Modifié le 07/05/2024 à 17h11

Je me demande si ça se limite à StackOverflow, ou bien tous les sites de StackExchange (SuperUser, etc) sont concernés ? Par ce que bon, ce réseau de sites ne se limite pas à la programmation. Ce sont des mines d'or concernant les maths, la linguistique, le réseau, etc.
Curieux de voir ce que ça va donner dans 10 ans. Les contributeurs vont-ils se reprendre et continuer d'utiliser ces sites, vont-ils en fonder d'autres, ou jeter l'éponge ? La mode des LLM va t-elle crever dans 5 ou 10 ans ? Autre chose ? Bien malin sera celui qui fera la bonne prédiction.
Reste que bcp de boites font tout leur possible pour avoir leur part du gâteau. Pour StackOverflow, on peut comprendre l'intérêt, et la légitimité, dans le sens où ils ont une valeur à vendre. Je ne dis pas que c'est moral hein, ça me débecte, juste que ça peut avoir un intérêt. Je compare cela à la masse de boites qui essaient de vendre ou de placer de l'IA dans leurs produits, alors que tout ce qu'ils ont à vendre, c'est du vent. C'est moche à voir. De vrais rapaces.

wagaf Abonné

Modifié le 07/05/2024 à 17h41

Les LLM deviendront des modèles plus puissants et évolués et continueront à remplacer l'expertise et l'intelligence humaine dans tous les domaines, pas très compliqué à prédire.

Ça n'est pas une mode, la mode c'est de vouloir mettre des LLM de mauvaise qualité et inadaptés partout.

Pour SO c'était clair depuis le début que le contenu leur appartient et qu'ils en font ce qu'ils veulent, contrairement à d'autres sites collaboratifs comme Wikipédia.
À partir de là je ne vois pas ce qu'on peut leur reprocher moralement, c'était clair depuis le début.
En passant la licence libre de Wikipédia permet aussi l'entraînement par des IA mais gratuitement.

Éloquent-Perroquet-performant

Le 07/05/2024 à 18h39

Heuu juste non. Les LLM sont avant tout des modèles statistiques. Ca ne remplace pas une expertise ni une intelligence humaine.
Je t'accorde que les LLM actuels sont impressionnants, mais pas si puissants (et leur fiabilité ne fait que stagner). C'est très différent.

wagaf Abonné

Modifié le 08/05/2024 à 23h49

Désolé, mais bien sûr que si, les LLMs remplacent déjà l'intelligence et l'expertise humaine, c'est un fait illustré notamment par la perte de trafic de Stack Overflow qui est un bon exemple d'intelligence et d'expertise humaine.

Le déni ne mène absolument nul part. Le fait que l'idée soit peut-être désagréable n’empêche pas que c'est une réalité qui s'impose déjà aujourd'hui. Demain les LLMs seront utilisés comme morceaux de systèmes d'IA beaucoup plus sophistiqués.

Par ailleurs c'est aussi l'avis d'experts dans le domaine comme Yoshua Bengio:
https://www.tvanouvelles.ca/2024/05/01/intelligence-artificielle-la-valeur-du-travail-fait-par-les-humains-va-diminuer-dit-yoshua-bengio
https://ici.radio-canada.ca/nouvelle/1998915/ia-conscience-evolution-bengio

On peut dire que les LLMs ne sont que des modèles statistiques.
On peut aussi dire que le cerveau humain n'est qu'un assemblage de molécules.
Et alors ?

BlackLightning Abonné

Le 09/05/2024 à 09h53

Reste à définir ce que tu entends par "expertise humaine". Oui, pour des problèmes simples et sans contraintes particulières (aide à un script de configuration Docker, petite question de code trivial ou recherche d'une info dans une doc en ultra rapide), les LLM sont redoutables.

Par contre, dès qu'on touche à des trucs plus techniques (POO, métaprogrammation, réflexion algorithme [dernièrement j'ai testé avec un collègue Quadtree vs Kd-tree sur deux LLM], optimisations), clairement l'expertise humaine a toujours l'avantage.

Je pense que, la vague de bullshit passé, les LLM assisteront les humains dans certaines tâches dev... Si entre temps ont apprends à faire des apprentissages qui ne nécessite pas 10 tranches de réacteurs nucléaires.

SebGF Abonné

Le 09/05/2024 à 11h30

La meilleure comparaison que je connaisse avec les LLM est de les considérer comme un stagiaire.

Ils ont la tête remplie, mais aucune expérience ni recul. Cela leur permet d'accomplir nombre de tâches simples ou à faible valeur ajoutée, mais ils risquent de botter en touche lorsque ça demande une plus forte réflexion. Perso je l'ai expérimenté avec GitHub Copilot Chat : si le demandeur (ici : moi) n'a aucune compétence sur le sujet, le modèle ne sera d'aucune assistance.

En fait, là où les LLM spécialisés dans le code sont de plus en plus implémentés, c'est dans les services de low-code/no-code. Comme ce sont des patterns plus standardisés, ils sont plus efficaces pour proposer une cinématique à un utilisateur pas forcément compétent dans le domaine.

wagaf Abonné

Modifié le 09/05/2024 à 13h49

On peut aussi mentionner les modèles de génération d'image qui sont déjà utilisés en masse pour remplacer l'expertise de nombreux professionnels dont certains ont déjà perdu leur travail (couvertures et illustrations de livres, images "stock" de faible qualité comme celles utilisées par NXI etc.).

C'est en train de se produire aussi pour la génération de musique avec Udio et Suno (à essayer d'urgence pour ceux qui ne connaissent pas).

Même si c'est limité à des tâches de faible valeur actuellement, presque chaque mois de nouveaux modèles sortent qui repoussent un peu plus les limites de ce qui est possible. En seulement 12 mois les capacités des systèmes de génération d'image ont évolué de manière très impressionnante.

Aujourd'hui les LLMs savent sans problème faire appel à une calculatrice interne ou d'autres outils pour effectuer des calculs par ex. ce qui était une limitation des premiers modèles grand public.

Même si l'architecture des LLMs les limite, tous les grands (Microsoft, Google, OpenIA etc) travaillent à les intégrer dans des systèmes plus sophistiqués.

SebGF Abonné

Le 09/05/2024 à 17h15

On peut aussi mentionner les modèles de génération d'image qui sont déjà utilisés en masse pour remplacer l'expertise de nombreux professionnels dont certains ont déjà perdu leur travail (couvertures et illustrations de livres, images "stock" de faible qualité comme celles utilisées par NXI etc.).

C'est aussi expérimenté dans le marketing pout générer des images d'illustration.

Sachant qu'il y a déjà eu des cas d'enseignes de commerce attaquées et condamnées pour avoir utiliser des photos issues du web sans autorisation dans leurs prospectus. Donc autant dire que la volonté de faire au plus simple et moins cher ne date pas d'hier.

Pour ma part, j'utilise Stable Diffusion pour les couvertures de mes livres, ainsi que pour rendre une scène qui m'aiderait dans l'écriture.

pamputt Abonné

Le 07/05/2024 à 19h44

Le contenu posté par les contributeurs à SO est publié sous licence CC by-sa. Difficile de voir comme l'entrainement des LLM sur ces données pourra respecter cette licence. Cela dit rien de nouveau, c'est la même chose que pour le pompage du contenu hébergé sur Github.
J'ai pas lu l'appel au boycot de SO, mais j'imagine qu'il doit en partie être question du non-respect de la licence.

wagaf Abonné

Modifié le 08/05/2024 à 23h52

Extrait:

You agree that any and all content, including without limitation any and all text, graphics, logos, tools, photographs, images, illustrations, software or source code, audio and video, animations, and product feedback (collectively, “Content”) that you provide to the public Network (collectively, “Subscriber Content”), is perpetually and irrevocably licensed to Stack Overflow on a worldwide, royalty-free, non-exclusive basis pursuant to Creative Commons licensing terms (CC BY-SA 4.0), and you grant Stack Overflow the perpetual and irrevocable right and license to access, use, process, copy, distribute, export, display and to commercially exploit such Subscriber Content

fred42 Abonné

Le 09/05/2024 à 01h24

C'est typiquement une clause illégale en France où tu ne peux pas abandonner ton droit moral qui te permet donc de revenir sur les aspects irrévocables et perpétuels. J'ai cité la France, mais il y a d'autres pays.

wagaf Abonné

Le 09/05/2024 à 13h47

Même si dans certains pays tu peux révoquer ta licence à SO, la plupart des gens ne le feront jamais, donc ça revient à peu près au même.

fofo9012 Abonné

Le 09/05/2024 à 11h34

alors qu'elle est assise sur un trésor de codes écrits par des humains

Euh c'est de l'ironie ?
Dans 90% les réponses sont fausses, hors sujet, pour les quelques réponses valident c'est donnée sans aucune explication.
SO pour pisser un script Python / bash sans maitrise du langage, pourquoi pas.
Dès que le prb est peu touffu, SO est hors sujet et spam malheureusement nos moteurs de recherches.

Pour moi SO est en concurrence directe avec les LLVM : "comment écrire telle instruction dans tel langage" => OK, pondre un algo un peu complexe ou l'optimiser c'est totalement une perte de temps.