Stack Overflow signe avec OpenAI
La pile d'IA déborde
L'entreprise qui gère le site web de questions/réponses sur les sujets d'informatique vient de signer un accord commercial avec OpenAI, après avoir signé avec Google fin février. Entre fournir des données d'entraînement et être envahi de contenus créés par IA générative, la ligne de crête est particulièrement fine pour Stack Overflow.
Le 07 mai à 13h09
4 min
IA et algorithmes
IA
Lundi 6 mai, Stack Overflow a annoncé avoir signé un contrat avec OpenAI pour l'utilisation des contenus postés par les utilisateurs de son site web pour entraîner les grands modèles de langage de l'entreprise d'IA génératives. Fin février, l'entreprise avait signé un contrat semblable avec Google pour l'entraînement des modèles Gemini pour Google Cloud.
Concrètement, les deux entreprises d'IA auront accès à la nouvelle API de Stack Overflow, nommée de manière peu originale « OverflowAPI ». On n'en saura pas beaucoup plus concernant les deux contrats dont les montants n'ont pas été rendus publics.
Ces contrats d'accès à l'API du site ne sont pas exclusifs, mais l'accès à l'API de Stack Overflow est payant et contrôlé. Stack Overflow met d'ailleurs un bouton « Devenir un partenaire » en évidence sur la page de son API qui mène à un formulaire de demande d'accès qui ne permet pas d'accéder directement au service. Il faut attendre que l'entreprise reprenne contact pour en savoir plus.
Position paradoxale
Dans son communiqué, Stack Overflow, explique qu'OpenAI va utiliser son API pour intégrer les « connaissances techniques validées de Stack Overflow » dans ChatGPT pour que celui-ci améliore ses réponses concernant le code. L'entreprise insiste sur la qualité de ses contenus qui alimenteront en fait tous les outils d'OpenAI se vantant de lui donner accès à « des connaissances et des codes fiables, attribués, précis et de qualité technique élevée, soutenus par les millions de développeurs qui ont contribué à la plateforme Stack Overflow depuis 15 ans ».
Mais c'est là tout le paradoxe actuel de Stack Overflow. Celle-ci participe à la mise en place de la massification de la génération automatique de code par les nouvelles IA alors qu'elle est assise sur un trésor de codes écrits par des humains.
L'entreprise a bien compris que, pour rester un fournisseur de contenus de qualité, elle devait garder cette spécificité. Elle a donc interdit le code généré par IA dans ses forums dès décembre 2022. Si, à l'annonce, cette interdiction devait être temporaire, elle est toujours présente près d'un an et demi après.
Un moteur de recherche boosté par l'IA générative pour faire revenir le trafic
Mais Stack Overflow a pourtant décidé de prendre la vague de l'IA générative en route. En juillet 2023, l'entreprise a créé une équipe « OverflowAI » et lancé en phase alpha un moteur de recherche basé sur l'IA générative dans le but d'améliorer l'accès aux réponses de la communauté sur un sujet donné. Le moteur de recherche est sorti de sa phase alpha seulement fin mars 2024.
En effet, le site a vu son trafic diminuer depuis l'arrivée des IA génératives et de l'utilisation en masse de ChatGPT et autre Copilot par les développeurs pour répondre à leurs interrogations. Et Stack Overflow a d'ailleurs licencié 28 % de ses effectifs en octobre 2023 alors qu'elle avait doublé ses effectifs l'année d'avant. Le CEO de l'entreprise expliquait sept mois avant, en avril 2023, à Wired que 10 % de ses effectifs (alors de près de 600 employés) se concentraient sur son API et la mise en place de ses services d'IA génératives.
Ces décisions au sein de Stack Overflow semblent être prises en réaction à la vague d'IA générative sans que l'entreprise l'ait vue venir.
Stack Overflow signe avec OpenAI
-
Position paradoxale
-
Un moteur de recherche boosté par l’IA générative pour faire revenir le trafic
Commentaires (19)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 07/05/2024 à 14h55
Le 07/05/2024 à 15h45
Le 13/05/2024 à 14h56
Il ne faut pas négliger le fait que sans sources nouvelles, les IA génératives seront rapidement stupides dans les domaines qui concernent StackOverflow. J'ai d'ailleurs parlé il y a peu avec un dev front assez pointu qui ne trouvait pas d'intérêt à utiliser GPT4 car les infos n'étaient pas assez récentes.
Le 07/05/2024 à 15h36
Le 07/05/2024 à 15h38
Dans ma boite, on a tous un accès à Copilot et ChatGPT. Et presque plus personne ne va sur StackOverflow, sauf pour des cas un peu tordu.
Bref, StackOverflow perd du trafic, et ils cherchent de nouveaux moyens pour faire rentrer des sous.
Le 07/05/2024 à 16h30
Modifié le 07/05/2024 à 17h11
Curieux de voir ce que ça va donner dans 10 ans. Les contributeurs vont-ils se reprendre et continuer d'utiliser ces sites, vont-ils en fonder d'autres, ou jeter l'éponge ? La mode des LLM va t-elle crever dans 5 ou 10 ans ? Autre chose ? Bien malin sera celui qui fera la bonne prédiction.
Reste que bcp de boites font tout leur possible pour avoir leur part du gâteau. Pour StackOverflow, on peut comprendre l'intérêt, et la légitimité, dans le sens où ils ont une valeur à vendre. Je ne dis pas que c'est moral hein, ça me débecte, juste que ça peut avoir un intérêt. Je compare cela à la masse de boites qui essaient de vendre ou de placer de l'IA dans leurs produits, alors que tout ce qu'ils ont à vendre, c'est du vent. C'est moche à voir. De vrais rapaces.
Modifié le 07/05/2024 à 17h41
Ça n'est pas une mode, la mode c'est de vouloir mettre des LLM de mauvaise qualité et inadaptés partout.
Pour SO c'était clair depuis le début que le contenu leur appartient et qu'ils en font ce qu'ils veulent, contrairement à d'autres sites collaboratifs comme Wikipédia.
À partir de là je ne vois pas ce qu'on peut leur reprocher moralement, c'était clair depuis le début.
En passant la licence libre de Wikipédia permet aussi l'entraînement par des IA mais gratuitement.
Le 07/05/2024 à 18h39
Je t'accorde que les LLM actuels sont impressionnants, mais pas si puissants (et leur fiabilité ne fait que stagner). C'est très différent.
Modifié le 08/05/2024 à 23h49
Le déni ne mène absolument nul part. Le fait que l'idée soit peut-être désagréable n’empêche pas que c'est une réalité qui s'impose déjà aujourd'hui. Demain les LLMs seront utilisés comme morceaux de systèmes d'IA beaucoup plus sophistiqués.
Par ailleurs c'est aussi l'avis d'experts dans le domaine comme Yoshua Bengio:
https://www.tvanouvelles.ca/2024/05/01/intelligence-artificielle-la-valeur-du-travail-fait-par-les-humains-va-diminuer-dit-yoshua-bengio
https://ici.radio-canada.ca/nouvelle/1998915/ia-conscience-evolution-bengio
On peut dire que les LLMs ne sont que des modèles statistiques.
On peut aussi dire que le cerveau humain n'est qu'un assemblage de molécules.
Et alors ?
Le 09/05/2024 à 09h53
Par contre, dès qu'on touche à des trucs plus techniques (POO, métaprogrammation, réflexion algorithme [dernièrement j'ai testé avec un collègue Quadtree vs Kd-tree sur deux LLM], optimisations), clairement l'expertise humaine a toujours l'avantage.
Je pense que, la vague de bullshit passé, les LLM assisteront les humains dans certaines tâches dev... Si entre temps ont apprends à faire des apprentissages qui ne nécessite pas 10 tranches de réacteurs nucléaires.
Le 09/05/2024 à 11h30
Ils ont la tête remplie, mais aucune expérience ni recul. Cela leur permet d'accomplir nombre de tâches simples ou à faible valeur ajoutée, mais ils risquent de botter en touche lorsque ça demande une plus forte réflexion. Perso je l'ai expérimenté avec GitHub Copilot Chat : si le demandeur (ici : moi) n'a aucune compétence sur le sujet, le modèle ne sera d'aucune assistance.
En fait, là où les LLM spécialisés dans le code sont de plus en plus implémentés, c'est dans les services de low-code/no-code. Comme ce sont des patterns plus standardisés, ils sont plus efficaces pour proposer une cinématique à un utilisateur pas forcément compétent dans le domaine.
Modifié le 09/05/2024 à 13h49
C'est en train de se produire aussi pour la génération de musique avec Udio et Suno (à essayer d'urgence pour ceux qui ne connaissent pas).
Même si c'est limité à des tâches de faible valeur actuellement, presque chaque mois de nouveaux modèles sortent qui repoussent un peu plus les limites de ce qui est possible. En seulement 12 mois les capacités des systèmes de génération d'image ont évolué de manière très impressionnante.
Aujourd'hui les LLMs savent sans problème faire appel à une calculatrice interne ou d'autres outils pour effectuer des calculs par ex. ce qui était une limitation des premiers modèles grand public.
Même si l'architecture des LLMs les limite, tous les grands (Microsoft, Google, OpenIA etc) travaillent à les intégrer dans des systèmes plus sophistiqués.
Le 09/05/2024 à 17h15
Sachant qu'il y a déjà eu des cas d'enseignes de commerce attaquées et condamnées pour avoir utiliser des photos issues du web sans autorisation dans leurs prospectus. Donc autant dire que la volonté de faire au plus simple et moins cher ne date pas d'hier.
Pour ma part, j'utilise Stable Diffusion pour les couvertures de mes livres, ainsi que pour rendre une scène qui m'aiderait dans l'écriture.
Le 07/05/2024 à 19h44
J'ai pas lu l'appel au boycot de SO, mais j'imagine qu'il doit en partie être question du non-respect de la licence.
Modifié le 08/05/2024 à 23h52
You agree that any and all content, including without limitation any and all text, graphics, logos, tools, photographs, images, illustrations, software or source code, audio and video, animations, and product feedback (collectively, “Content”) that you provide to the public Network (collectively, “Subscriber Content”), is perpetually and irrevocably licensed to Stack Overflow on a worldwide, royalty-free, non-exclusive basis pursuant to Creative Commons licensing terms (CC BY-SA 4.0), and you grant Stack Overflow the perpetual and irrevocable right and license to access, use, process, copy, distribute, export, display and to commercially exploit such Subscriber Content
Le 09/05/2024 à 01h24
Le 09/05/2024 à 13h47
Le 09/05/2024 à 11h34
Dans 90% les réponses sont fausses, hors sujet, pour les quelques réponses valident c'est donnée sans aucune explication.
SO pour pisser un script Python / bash sans maitrise du langage, pourquoi pas.
Dès que le prb est peu touffu, SO est hors sujet et spam malheureusement nos moteurs de recherches.
Pour moi SO est en concurrence directe avec les LLVM : "comment écrire telle instruction dans tel langage" => OK, pondre un algo un peu complexe ou l'optimiser c'est totalement une perte de temps.