Google paye des éditeurs d’information pour entraîner une nouvelle plateforme d’IA générative

🎧 Age of Anxiety II

Selon les informations d’Adweek, Google a lancé un nouveau programme avec lequel elle demande à des médias indépendants de tester une nouvelle plateforme d’outils génératifs contre rémunération « à cinq chiffres » sur l’année.

Mathilde Saliou

Le 28 février à 15h00

5 min

IA et algorithmes

Le mois dernier, Google a lancé un programme privé à destination de plusieurs éditeurs indépendants, selon les informations d’Adweek. Le principe : leur fournir en avant-première l’accès à une nouvelle plate-forme d’intelligence artificielle, en échange de données analytiques et de retours des testeurs.

Pour les éditeurs, l’accord implique d’utiliser une suite d’outils pour créer un volume préétabli de contenus pendant un an. En face, ces médias reçoivent une somme mensuelle qui, au total, aboutit à un montant « à cinq chiffres » sur l’année, ainsi que des outils pour créer des publications adaptées à leur ligne éditoriale.

De la « bouillie d’IA » pour pas cher ?

Selon Google, il s’agit de chercher, avec l'aide de médias (en particulier les plus petits éditeurs), la meilleure manière de fournir des outils d’IA pour aider les journalistes dans leur travail. Mais, de même que dans le milieu artistique, le milieu s’inquiète de la reprise non sourcée, ni rémunérée, du contenu d’autrui.

Les hallucinations et autres restitutions mot pour mot d’articles qui ont mené à la plainte du New-York Times contre OpenAI, par exemple, posent en effet des problématiques financières autant que de sauvegarde de l’intégrité de l’information dans l’espace public. Sur Threads, le journaliste Casey Newton tacle : « Google exploiterait actuellement une plateforme permettant aux éditeurs de convertir automatiquement le journalisme d'autrui en bouillie d’IA, le tout pour moins de 100 000 dollars. »

Auprès d’Adweek, l’entreprise se défend de ce type de critique, et qualifie les accusations de « republication » de « spéculation ». Elle met plutôt l’accent sur la possibilité de créer des outils « responsables » susceptibles d’aider les rédactions les plus petites à produire du « journalisme de haute qualité » – notamment du data-journalisme, en facilitant l’agrégation et l’analyse de données. Quoi que dise le géant numérique, l’expansion d’outils de ce type n’empêchera pas des éditeurs de préférer l’automatisation à certains types de travaux humains, perpétuant une logique de réduction des coûts déjà largement enclenchée dans l'industrie.

Cela dit, et même si le projet est différent, la somme évoquée n’a rien à voir avec les 1 à 5 millions de dollars proposés par OpenAI à divers médias pour entraîner ses modèles sur des articles d’information. Elle est encore plus éloignée des « contrats pluriannuels d’une valeur de 50 millions de dollars minimum » qu’Apple tente de conclure avec de grands éditeurs états-unien.

De l’influence des Big Tech sur les médias et sur le débat publique

L’information vient ajouter de l’eau au moulin des débats sur les effets potentiels de l’IA générative sur le monde de l’information – et l’espace public numérique. En décembre, différents éditeurs témoignaient auprès du Washington Post des risques très réels que font peser sur leur trafic la menace d’outils de recherche augmentés à l’aide de l’IA générative.

The Atlantic estimait par exemple que 40 % de son trafic viennent actuellement du moteur de recherche. Selon des expérimentations menées en interne, si Google intégrait de l’IA générative à ses outils de recherche pour produire des réponses, la machine serait capable de produire une réponse crédible dans 75 % des cas, détournant l’internaute du média lui-même. Il ne donnait pas d’élément sur l’exactitude des réponses, mais les récents aléas de Gemini, ChatGPT ou autre font aussi redouter une prolifération de la mal-information.

Le Forum sur l’Information et la Démocratie publie aujourd’hui un long rapport plein de recommandations en tous genres pour tenter d’ « assurer le contrôle démocratique de l’IA dans l’espace informationnel ». Auprès de Next, la responsable des politiques publiques, Katharina Zügel, expliquait l’enjeu par le fait que cet espace informationnel « se transforme très vite, et principalement selon les intérêts d’une poignée d’entreprises privées »… dont Google et sa maison-mère Alphabet font partie.

Pour certains, comme le photojournaliste Niels Ackermann interrogé dans le podcast Imaginaires, la presse gagnerait à profiter du chamboulement actuel pour réfléchir à son rôle dans le vaste espace de l’information, et aux manières de regagner une confiance qui s’érodait avant même (ou en parallèle de) l’actuelle explosion de l’IA.

Face à la facilité avec laquelle les plateformes génératives permettent de produire des éléments faux, ou a minima « synthétiques », donc pas issus du terrain et de la vie hors ligne, il enjoignait les médias à se placer en « marchand[s] de « vrai » ».

Et vous, lectrices, lecteurs, votre avis ? À quoi ça pourrait ressembler, d’ailleurs ?

Commentaires (11)

Aqua Abonné

Le 28/02/2024 à 15h26

Mais c'est génial... l'emmerdification d'internet made in Google
- Payer pour que les médias se rendent dépendants du machin ("volume pré-établi"...)
- Comme les articles sont naze, leur audience baisse et deviennent donc dépendant du revenu de Google
- couper/réduire la dépense, voir rendre le machin payant ; se refaire sur les revenus publicitaires
- le média licencie ses autreu.ices humain.es et devient une ferme à bouillie hallucinée.

Ca devient pire que l'analogie du vendeur de drogue avec "la première dose est gratuite". là on te paye même pour prendre la première dose!

Eric2791 Abonné

Le 28/02/2024 à 16h18

Quid de : Next a-t-il été contacté !?

Baldurien Abonné

Le 28/02/2024 à 17h26

Il y a un équivalent du syndrome de Kessler dans le domaine de l'information ?

fred42 Abonné

Le 28/02/2024 à 17h40

Les hallucinations et autres restitutions mot pour mot d’articles qui ont mené à la plainte du New-York Times contre OpenAI, par exemple, posent en effet des problématiques financières autant que de sauvegarde de l’intégrité de l’information dans l’espace public.

mais les récents aléas de Gemini, ChatGPT ou autre font aussi redouter une prolifération de la mal-information.

Face à la facilité avec laquelle les plateformes génératives permettent de produire des éléments faux, ou a minima « synthétiques »

Attention à ne pas tirer de conclusions hâtives en regardant ce que peut faire un outil généraliste d'IA générative mal utilisé sur la qualité de ce que peut produire un outil spécialisé entraîné sur cette tâche comme celui de Google (ou d'un autre) pour générer des articles d'information à partir de données en entrée qui elles sont vraies.

Vous pourriez être surpris de la différence de qualité.

Par contre, ça ne remplacera pas le journalisme d'investigation. Sur les brèves, je pense que le résultat pourrait être bon.

Nightmaster Abonné

Le 29/02/2024 à 00h34

Attention à ne pas tirer de conclusions hâtives en regardant ce que peut faire un outil généraliste d'IA générative mal utilisé sur la qualité de ce que peut produire un outil spécialisé entraîné sur cette tâche comme celui de Google (ou d'un autre) pour générer des articles d'information à partir de données en entrée qui elles sont vraies.

Je pense que Mathilde écrit ça en ayant en tête ce qu’est fondamentalement une IA actuelle : un "LLM", donc un modèle probabiliste, pas une capacité de compréhension véritable (au sens humain de la chose).

Sans m’étendre sur le sujet, et sans vouloir (plus ?

) prétendre ce que veux dire Mathilde, je laisse juste un article (de Développez.com) sur le sujet des (actuelles) IAs / LLMs qui remet essai de rappeler comment le tout fonctionne, pour éviter que les gens ne succombent au charme du "marketing IA"

fred42 Abonné

Modifié le 29/02/2024 à 00h50

L'article est pas mal mais ne m'a rien appris.

Je pense avoir compris qu'un LLM est assez bon dans des tâches de résumé, de traduction et de compilation de texte. C'est pour cela que je pense qu'il peut faire du travail de qualité sur certains types d'articles de presse. Ce n'est pas pour rien que j'ai parlé des brèves en particulier.
Il sera bon pour écrire un texte à partir d'un ou de plusieurs autres textes sources, les résumer, les traduire si besoin, etc.

Par contre, si on demande à un LLM généraliste de faire l'oracle ou de raconter le passé, il va se planter et c'est normal pour les raisons que tu expliques.

SebGF Abonné

Modifié le 29/02/2024 à 07h39

Je pense que Mathilde écrit ça en ayant en tête ce qu’est fondamentalement une IA actuelle : un "LLM", donc un modèle probabiliste, pas une capacité de compréhension véritable (au sens humain de la chose).

Les LLM ne sont qu'une des formes d'IA générative (un modèle de diffusion n'est pas un LLM), celle-ci étant une des finalités de la discipline qu'est l'IA. Rapporter l'IA aux LLM est donc assez réducteur. (Whisper est une IA)

L'IA, c'est surtout le machine learning et le deep learning et oui, ça reste énormément basé sur des statistiques et de la probabilité puisque le but de l'IA est de produire un système capable de traiter une problématique avec peu d'entrants. Comme l'humain qui traite de la même manière un problème en émettant des hypothèses et des prédictions puis en les vérifiant.

A garder en tête néanmoins que si un LLM ne comprend pas le sens des mots, il a une compréhension sémantique et c'est ça qui lui permet de fonctionner.

SebGF Abonné

Modifié le 28/02/2024 à 18h47

Les hallucinations et autres restitutions mot pour mot d’articles qui ont mené à la plainte du New-York Times contre OpenAI, par exemple, posent en effet des problématiques financières autant que de sauvegarde de l’intégrité de l’information dans l’espace public.

Sur ce point OpenAI a annoncé que le New York Times aurait utilisé un bug et un prompt trompeur en fournissant des extraits au modèle pour qu'il les recrache. Ca reste un modèle statistique, et les stats, ça se biaise depuis bien avant la création de l'IA en tant que discipline de recherche.

Et vous, lectrices, lecteurs, votre avis ?

L'iA générative est un formidable outil qui, pour moi, est une révolution dans les usages de l'IT. Notamment en matière d'interaction humain-machine. Comme tout outil, il a ses forces et ses faiblesses.

Le problème est qu'il est utilisé par des abrutis opportunistes, mal utilisé, et qu'il y a beaucoup trop de bullshit, d'info anxiogène voire de mensonge par omission à son sujet, entraînant un biais quand à sa compréhension. Notamment alimenté par les entreprises productrices de ces produits, OpenAI étant vraiment horrible en matière de bullshit-o-meter. L'IA générative n'est pas un système autonome, elle ne peut pas remplacer quoique ce soit. Par contre elle est extrêmement efficace sur l'analyse, synthèse et étude de documentation. D'ailleurs j'ai souvenir d'une interview d'un doctorant dans le domaine sur France Info il y a quelques mois qui disait que l'IA était utilisée depuis plus longtemps que le buzz ChatGPT dans le journalisme, le Monde l'aurait exploitée notamment pour couvrir la présidentielle française pour aider à la synthèse et au recoupement d'information.

On est dans une ère où l'information (au sens donnée) est produite et circule à une vitesse hallucinante. Quasi pareil que le trading haute fréquence des échanges boursiers. L'humain est incapable de suivre et traiter ça sans mettre derrière une armée de mexicains qui, de toute façon, mettra trop de temps à produire un résultat. L'apport de l'outil est donc indéniable pour faciliter ce travail d'analyse.

Ce qui manque, c'est pas du pointage du moindre dérapage à monter en mayonnaise pour faire du buzz, mais plutôt une ligne équilibrée mêlant explication du fonctionnement, démystification car c'est pas magique, ses capacités, ses limitations, la réalité versus les fantasmes, les bonnes pratiques, et les mauvais usages à éviter. Comprendre le fonctionnement d'un système est essentiel pour savoir comment l'exploiter au mieux, mais aussi, déceler les mauvais usages visant à tromper. (mon offre pour vous proposer du contenu sur ce point tient toujours)

De mon expérience d'utilisateur de Stable Diffusion : l'image générée par IA, ça se reconnaît assez vite. Quand on produit un grand nombre d'image, on apprend à identifier rapidement les défauts. Au même titre qu'en tant que photographe amateur, les défauts sur mes séries de clichés me sautent à la tronche direct.

De mon expérience d'utilisateur de GPT (donc pas que ChatGPT) : un texte généré par GPT, ça peut se reconnaître facilement quand c'est fait avec des prompts basiques.

darkjack Abonné

Modifié le 29/02/2024 à 07h39

"De mon expérience d'utilisateur de GPT (donc pas que ChatGPT) : un texte généré par GPT, ça peut se reconnaître facilement quand c'est fait avec des prompts basiques."
Je doute que la majorité des personnes aient ta compétence et ton expérience et soient capables de s'en rendre compte.
Sinon, +1 pour ton analyse.

SebGF Abonné

Le 29/02/2024 à 13h40

D'où le fait qu'un retour d'expérience, ça se partage :)

Comme à l'époque où FranceInfo avait proposé un article pour reconnaître les images générées par IA avec les défauts connus de l'époque. Critères qui sont un peu moins valables de nos jours en raison des améliorations que les générateurs ont depuis. Mais y'a toujours des détails qui trahissent.

SebGF Abonné

Le 29/02/2024 à 13h42

Et désormais l'IA est aussi un vecteur d'attaque. Après les packages malicieux inspirés des hallucinations des modèles, les attaques par supply chain.