Google Actualités est truffé d’articles plagiés par des IA
Générateurs de plagIAts

Plus d'une centaine (au moins) des 1 500 sites francophones d'information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu'ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d'autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.
Le 14 février à 12h32
26 min
Société numérique
Société
Le site News.dayFR.com, qui plagie jusqu'à 6 000 articles par jour et vient de faire l'objet d'un recours en justice de la part de 40 médias français, n'est que la partie émergée de l'iceberg des prétendus sites d'information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.
Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d'infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.
Une explosion qui ne témoigne pas tant, cela dit, d'une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d'une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d'estimer qu'ils seraient probablement des (dizaines ?) de milliers, rien qu'en français.
Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d'alerter les internautes lorsqu'ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n'aurions pas encore identifiés (ce qui nous a d'ailleurs permis d'en rajouter plusieurs dizaines depuis son lancement).
Jamais nous n'aurions imaginé l'ampleur qu'a pris cette enquête, entamée il y a maintenant plus d'un an. Ce pourquoi nous avons donc aussi proposé à Libération et son service de fact-checking CheckNews de s'y atteler avec nous, au vu du nombre de sites, et de problématiques, auxquels nous sommes confrontés (cf leur enquête, l'article sur les coulisses de celle de Next, et leurs articles – eux aussi sous paywall – au sujet de «News of Marseille», le site touristique à la sauce IA, les «petites mains» africaines du web remplacées par ChatGPT, et comment l’IA modifie les pratiques des journalistes).
Une véritable « pollution informationnelle », en pleine expansion
Nous avons cessé de comptabiliser les sites d'infos générés par IA (GenAI) reposant sur du plagiat au bout d'un peu plus de 100. D'une part parce que, au-delà de ce chiffre symbolique, l'identification des 1 000 sites d'infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.
D'autre part parce que le fait d'identifier qu'un site est GenAI est une tâche qui peut s'avérer relativement facile (cf notre mode d'emploi). A contrario, la reconnaissance des plagiats s'avère parfois bien plus ardue, et prend donc encore plus de temps.
Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu'ils sont tellement nombreux à recourir à des générateurs d'articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.
Le problème n'est pas tant qu'ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.
Il n'est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d'actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.



C'est d'ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.
Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).
Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu'ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu'il s'agissait d'articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).
Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l'encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l'IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).
Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).
Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l'iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d'autres à polluer le web de la sorte (a fortiori si l'on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s'y atteler.
Ce pourquoi il nous a semblé important d'expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s'inspirent, traduisent, voire paraphrasent, en l'illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l'avions archivé) :
« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »
« Si vous voulez un travail professionnel, vous devez relire les textes », recommandait-il comme tout premier conseil : « Pour humaniser ChatGPT, vous aurez principalement besoin d’un humain. Oui, cette phrase semble être une blague, mais rappelez-vous l’importance de réviser les créations du chatbot. Mon principal conseil est de ne jamais utiliser directement les textes générés par l’IA, sans effectuer de tâches d’édition. »
Sauf que la balise « alt » de la photo illustrant son article indique « Cómo humanizar ChatGPT para que sus textos sean indetectables », et qu'une recherche image inversée permet de retrouver cette même image, générée par une IA, ainsi que l'article plagié, au titre éponyme, sur le site du quotidien espagnol La Vanguardia.


L'article espagnol avait été publié ce même 13 janvier à 5h30. Netcost-security.fr aura donc mis 10 minutes seulement pour identifier l'article, le récupérer, traduire ses 1 385 mots (8 100 signes) en français, et le republier, tout en copiant-collant également son image d'illustration (générée par une IA). Mais sans mentionner la source primaire, et sans donc non plus le faire relire ni valider par un être humain avant que de le republier, en mode plagiat.
10 minutes seulement, soit quasiment autant qu'il en aurait fallu à un être humain pour simplement trouver le temps d'identifier puis de lire l'article en question.
Nous avons comparé l'article publié sur netcost-security.fr avec une traduction en français de l'article espagnol par ChatGPT, Google Traduction et DeepL. Si l'article plagié se rapproche bien plus de la traduction proposée par Google que de celle de DeepL, il semble encore plus s'apparenter à celui traduit par ChatGPT, mais sans que l'on puisse pour autant clairement trancher.

Des journalistes qui ont l'étrange pudeur d'anonymiser leurs noms
Le site netcost-security.fr n'a pas de page « À propos » présentant son projet éditorial non plus que les membres de sa rédaction. Sa page « mentions légales » ne renseigne que son seul hébergeur, sans mention (pourtant obligatoire) de son directeur de publication, censé être responsable du contenu, y compris en droit pénal pour ce qui est de la diffamation, ou du plagiat.
Sa description, figurant dans les méta-données de son site web, le présente comme un « Média d'actualités et tests produits sur les nouvelles technologies, mobilité, énergie, science et jeux-vidéos ». Ses « journalistes » ont pour point commun une étrange pudeur consistant à anonymiser leurs noms, ne renseignant que leurs prénoms, suivi d'une initiale. Leurs photos de profil semblent avoir été générées par des IA, et ils ne semblent pas avoir non plus de comptes sur les réseaux sociaux, LinkedIn compris.
« Vous retrouverez majoritairement des articles signés de mon nom », précise pourtant ALEXANDRE B. (dont l'identifiant, consultable dans l'URL, est « alexnetandrecost66 »). THOMAS P. (« thomas9802ui212 ») explique pour sa part être « souvent invité à donner des conférences », et écrire « régulièrement des articles pour les publications en ligne et les magazines spécialisés », sans plus de précisions.
« Passionné de science depuis tout petit, je peux désormais vivre de ma passion grâce à la rédaction », se targue de son côté ROMAIN L. (« romaincostnet24 »). KEVIN C. (« kevinredacnetost ») se définit quant à lui comme « une référence incontournable pour comprendre notre monde numérique en constante évolution ». LUCIE F. (« luciecostnett21 »), seule femme de la « rédaction », arbore une bio encore plus nébuleuse :
« Les réseaux sociaux font partis [sic] de nous, comme une extension de notre esprit. Parfois, une telle adoption mène à des mutations positives ou négatives de notre train de vie, et des situations rocambolesque auprès de certains "influenceurs". Vous retrouvez ces différentes news que je vais tâcher de déchiffrer, dans les différents articles présent dans ma section actualités sur netcost-security.fr. »

On retrouve les mêmes rédacteurs fantômes dans notre enquête sur les applications de contrôle parental qui se proposent, de manière à peine déguisée, de surveiller votre conjoint.
De 7 à plus de 20 articles par jour, une tâche herculéenne
Leur « collègue » Gabriel V. explique de son côté que « la tech va chaque jour plus vite et il peut-être [sic] difficile de suivre cette thématique », ce pourquoi, « grâce à mes articles, j'espère vous faire ressortir les sujets importants et intéressants afin de ne rien louper cette actualité toujours en pleine agitation ».
Particulièrement productif (week-end compris !), Gabriel V. a publié la bagatelle de... 22 articles dans la seule journée du mardi 8 octobre, 17 le lundi 7, 15 le dimanche 6 et 20 le samedi 5, à flux tendu, dont une bonne partie publiés au beau milieu de la nuit.

Un marathon herculéen qu'il avait entamé en décembre 2020, et donc avant le lancement de ChatGPT et des autres GenAI, mais qu'il semble avoir accéléré depuis, au point d'avoir publié un total de 10 500 articles, à raison de sept par jour en moyenne.
Si un journaliste humain peut rivaliser en termes de productivité (sans trop fouiller ses sujets évidemment), il va rapidement atteindre ses limites contrairement aux IA. Comme nous l’avons expliqué dans notre T@LC, cela ne poserait pas de soucis de passer à des dizaines voire des centaines d’articles par jour avec une IA, de manière constante tous les jours de l’année, sans jamais prendre de congés ni de repos.
Sachant qu'un article original ne se bornant pas à paraphraser celui d'un autre journaliste nécessite a minima d'en identifier la pertinence, d'y consacrer du temps, puis d'identifier les informations afférentes, qu'il convient de vérifier et de contextualiser, afin de pouvoir l'angler, ce qui peut parfois prendre quelques dizaines de minutes, mais aussi jusqu’à des... mois.
À toutes fins utiles, cet article, dont la lecture vous prendra une vingtaine de minutes seulement, repose a contrario sur une enquête entamée il y a plus d'un an, et il nous est impossible de pouvoir quantifier les centaines d'heures (au moins) que nous y avons consacrées.
« L'IA de Meta est une insulte aux hippopotames nains partout »
Il suffit, par ailleurs, d'effectuer des recherches en mode « image inversée » pour retrouver les sources des articles plagiés que le soi-disant Gabriel V. s'est en fait contenté de copier, traduire et coller, probablement de façon automatisée.
La différence entre l'URL, qui reprend le titre d'origine, et celui qui s'affiche, une fois rectifié, montre cela dit une intervention humaine ayant consisté à corriger le titre, dont la traduction automatisée laissait à désirer, comme le confirment les horodatages de « Mise à jour » visibles sur les captures d'écran.
Le vendredi 4 à 4h40 EDT (soit 22h40 heure française), le site Futurism.com avait ainsi publié un article intitulé « META'S AI BOOTLEG MOO DENG IS AN INSULT TO PYGMY HIPPOS EVERYWHERE », que netcost-security.fr avait plagié dans la foulée, une fois traduit, sous le titre improbable « L'IA Bootleg Moo Deng de Meta est une insulte aux hippopotames nains partout » deux heures plus tard, à 0h57.
À 9h46, le titre était rectifié, laissant supposer une supervision effectuée par un être humain : « Movie Gen de Meta : Quand l’IA Réinvente le Cinéma avec un Bébé Hippopotame » (les majuscules rajoutées à chacun des principaux mots, typiques des titres anglophones, sont par ailleurs un indice supplémentaire que l'article émane d'une traduction par IA).


Si netcost-security.fr semble donc recourir à une petite main (y compris le dimanche matin) pour revoir et corriger les titres de certains des « articles » qu'il plagie, après les avoir automatiquement traduits, l'ensemble de la chaîne de production semble cela dit avoir été automatisée, ce qui expliquerait la productivité, 24/7, de ces soi-disant « journalistes ». Contacté, netcost-security.fr ne nous a pas répondu.
« Bonjour, n'hésitez pas à nous acheter un nom de domaine »
« Contrairement à ce que certains peuvent penser, 42mag.fr n’est absolument PAS un site de fausses informations tel quel [sic] Le Gorafi », précise pour sa part ce « site d'information et de découverte » sur sa page Qui sommes nous ? : « Toutes nos actualités sont bien réelles et s’appuient sur des sources sérieuses qui sont citées en bas d’article la plupart du temps ».
Il suffit en effet d'effectuer une recherche en mode « image inversée » sur la photo d'illustration de son article consacré au dernier film interprété par Benoît Poelvoorde pour retrouver l'article de franceinfo que son IA a soigneusement paraphrasé (mais sans le mentionner). Ce plagiat paraphrasé (cf les passages en orange) vise à éviter à 42mag.fr d'être accusé de publier du « contenu dupliqué », et donc d'être pénalisé par les moteurs de recherche, à commencer par Google, qui refuse d'y afficher des publicités.
Réalisée par Stefan Liberski, cette comédie raconte l’histoire d’un peintre aux idées toutes faites, dans laquelle Benoît Poelvoorde, aux côtés de Camille Cottin et François Damiens, donne le meilleur de ce qu’il a à offrir. | Dirigée par Stefan Liberski, cette œuvre comique relate le parcours artistique d’un peintre aux opinions bien arrêtées. Dans ce film, Benoît Poelvoorde excelle dans son rôle aux côtés de Camille Cottin et François Damiens, offrant une performance des plus remarquables. |
On peut toujours compter sur lui pour faire le show, même à l'avant-première. Faire le pitre, pour Benoît Poelvoorde, c'est une seconde nature. Les fans se régalent. Dans "L’art d’être heureux", l'acteur incarne un peintre qui rêve de gloire. Un artiste qui passe sa vie à ruminer des idées toutes faites. | Lorsqu’il s’agit de faire le spectacle, Benoît Poelvoorde ne manque jamais à l’appel, même lors des avant-premières. Faire rire est comme une seconde nature pour lui, et ses admirateurs en redemandent. Dans « L’art d’être heureux », il revêt le rôle d’un peintre aspirant à la renommée. Ce personnage passe ses journées à ressasser des idées préconçues. |


Il lui arrive aussi de se contenter d'aller chercher un article écrit en anglais, puis de le traduire en français, comme avec cet article de RFI, reproduit mot pour mot, jusqu'à ses photos d'illustration, une heure seulement après sa publication initiale sur RFI, en omettant bien évidemment d'en mentionner les crédits.
Simon Bornstein, qui signe ces deux plagiats, se présente comme « un étudiant en journalisme et auteur à succès ». Particulièrement prolifique, il est capable d'écrire de cinq à plus de dix articles par jour, et publie tous les jours, week-ends compris. Au total, il en a publié plus de 6 500 depuis le 15 janvier 2023, date à laquelle il a commencé à automatiser la génération d'articles par IA, moins d'un mois et demi seulement après le lancement de ChatGPT, le 30 novembre 2022, soit près de neuf articles par jour.
Contacté, l'éditeur de 42mag.fr, qui se présente sur son site comme un professionnel du numérique « détesté » par ses concurrents (bien que référencé par La French Tech et francenum.gouv.fr), n'a pas répondu à nos questions, se bornant à une provocation : « Bonjour, n'hésitez pas à nous acheter un nom de domaine Google News pour faire vos tests vous-même », nous renvoyant à son site de rachat de noms de domaine ayant précédemment été « approuvés » par Google News.
Le rachat de noms de domaines expirés, afin de profiter de leur « réputation » et des nombreux liens entrants préexistants, est l'une des pratiques typiques des professionnels du « black hat SEO » (pour Search Engine Optimisation) cherchant à utiliser tous les moyens disponibles (le plus souvent contraires aux règles des moteurs de recherche), pour parvenir à être bien référencés, notamment sur Google Actualités et son IA Discover.
Leur objectif n'est pas d' « informer », contrairement aux journalistes et aux sites d'information, mais de profiter de la réputation acquise par ces médias préalablement indexés dans Google News pour parvenir à y placer des articles ou liens sponsorisés, et/ou d'arriver à percer sur Discover, de sorte d'engranger les revenus publicitaires associés aux (dizaines, voire centaines) de milliers de pages vues que cela entraîne (nous y reviendrons).
Un site d'info identitaire, conspirationniste, et (en partie) GenAI
Breizh-Info, classé à la 309e position du classement SimilarWeb des Éditeurs d'actualités et médias en France en janvier (après y avoir figuré à la 231e position en octobre), se présente comme « un média indépendant traitant de l’actualité bretonne et internationale ».
Il est aussi considéré par de nombreux médias et observateurs comme « un organe de presse de la fachosphère » d'extrême-droite identitaire, par ailleurs connu pour avoir diffusé de nombreuses fausses informations, y compris conspirationnistes, notamment pendant la pandémie de Covid-19. Le passage de ses mentions légales consacré aux droits d'auteurs autorise de « courtes citations » :
« sont licites les citations courtes des textes présents sur le site dans la mesure où ils s’intègrent dans une œuvre nouvelle, à la condition expresse de ne pas modifier les œuvres citées de les délimiter formellement (guillemets de citation ou typographie distinctive) et de mentionner la source (ce site) et les auteurs. »
Il souligne, en outre, que « Tout manquement aux règles du droit d’auteur ou du droit des bases de données est passible de sanctions pénales au titre du délit de contrefaçon, sans préjudice d’éventuelles demandes de dommages intérêts de la part des titulaires de droits ».
Le site adosse d'ailleurs ses articles d'une mention « [cc] Breizh-info.com » autorisant la republication « sous réserve de mention et de lien vers la source d’origine ».
Or, pour ses articles d'actualité locale, Breizh-Info paraphrase, lui aussi, nombre de ses articles, sans mentionner les sources qu'il plagie, à l'instar de cette reprise d'un article de L'Écho de la presqu'île guérandaise, ou de cet autre reprenant des informations initialement parues dans Ouest France.
Mais le site paraphrase aussi les citations des personnes qui s'y expriment, signe que les articles auraient, là encore, probablement été générés par IA. Car, et contrairement à un (journaliste) humain, une IA ne comprend pas la différence entre un « texte » et une « citation » : une chose est, en effet, de résumer une citation (généralement en y rajoutant des « [...] »), une autre est d'en modifier les mots et termes rapportés, au risque d'en dénaturer le propos.
Ce 23 janvier, Breizh-Info publiait par exemple un article consacré à une mobilisation au sujet du phare d'Ouessant, qui reprenait l'image d'illustration d'un article paru le 20 janvier sur le site Media-web, sans en mentionner l'auteur, mais tout en en paraphrasant l'article.
Or, les « citations » publiées dans l'article d'origine des propos tenus par Christian Dubet, ouessantin, spécialiste des phares, dont le père était gardien du phare du Créac’h pendant 24 ans, sont paraphrasées (en orange) dans l'article de Breizh-Info (qui ne cite pas, au surplus, l'article qu'il plagie), signe qu'il s'agit très probablement d'un article GenAI.
« Même avec une cartographie et son point GPS, un marin sera toujours plus rassuré en relevant un phare de visu qu’en regardant son écran. Quid de la panne électronique à bord ? De la possibilité en cas de conflit de brouiller/réduire les données GPS ? » | « Même à l’ère du GPS, un marin préfère toujours s’appuyer sur un phare visible de loin. Que faire en cas de panne électronique ou de brouillage des signaux ? » |
« Le retour vers le vieux continent après un tour du monde sans escale par les trois caps est forcément immortalisé par ce faisceau qui balaye à 360 ° et qui, de minute en minute, devient de plus en plus visible. Il est comme un aimant, un guide, une bienveillance après 48 jours de mer pour faire le tour de la planète. Son intensité devient si forte qu’il nous envahit de bonheur, il nous envoute presque par sa bienveillance. Il balaye nos visages comblés de dépassement de soi. » | « Après un tour du monde sans escale, apercevoir le faisceau du Créac’h est une délivrance. C’est un aimant, un guide. Son intensité lumineuse balaye nos visages fatigués, nous ramenant à la sécurité et à la terre après 48 jours en mer. » |
« Vous ne trouverez pas de plagiat sur notre site »
Contacté, l'éditeur de Breizh-Info nous a (longuement) répondu que ses articles étaient « rédigés en respectant des normes journalistiques, quoi qu'en disent les organes de censure qui servent surtout à protéger une caste médiatique installée de longue date, subventionnée, dépendante d'intérêts économiques et qui entend garder ses privilèges », et que « nous portons une attention particulière portée à la vérification des sources et à l'originalité du contenu ».
Reconnaissant, cela dit, que « nous pouvons occasionnellement recourir à l'IA comme à d'autres assistants numériques (traducteurs) pour optimiser la rédaction, structurer nos articles ou générer des bases de travail », il nous a d'abord rétorqué qu' « avant, pendant, et à la fin, c'est un journaliste qui a la main » :
« Vous ne trouverez pas de plagiat sur notre site, hormis à dire que traiter la même information, le même fait qu'un autre journal relève du plagiat, mais dans ce cas, toutes les rédactions abonnées à l'AFP (pas notre cas) le font, quotidiennement, heure par heure. »
Interrogé au sujet de ses reprises (non sourcées) d'articles préalablement publiés dans la presse quotidienne régionale (PQR), il nous « concède que dans le futur , nous allons discuter entre nous généraliser dans nos mentions le fait que des articles ont pu être relus ou retravaillés en utilisant une IA » :
« Qu’on nous traite de média d’extrême droite , identitaire ce que vous voulez aucun problème . Nous assumons à 1000 % d’être le Diable dans les yeux et la tête de ceux qui aiment à se faire des peurs faciles. Mais qu’on nous accuse d’être malhonnête et notre rédaction de ne pas faire son boulot de manière éthique , ça non . Je ne l’accepte pas. »
L'éditeur de Breizh-Info a par contre cessé de répondre à nos questions lorsque nous l'avons confronté au fait que certaines des informations relayées sur son site émanaient en fait d'articles publiés dans la PQR, qu'il ne mentionnait pourtant pas comme sources, mais également que la citation des propos du fils du gardien du phare avait été « paraphrasée », et donc probablement « hallucinée » par une IA.
140 000 articles indexés par Google Actus bien que traduits de façon erronée
Nous avons en outre découvert que Google Actualités répertoriait également plus d'une centaine de milliers d'articles initialement publiés sur des sites étrangers, traduits automatiquement en français, mais dont les traductions n'ont pas été relues ni validées par des êtres humains.
Le plugin WordPress de traduction automatisée Gtranslate, qui propose à ses utilisateurs d' « augmenter le trafic international, atteindre un public mondial et explorer de nouveaux marchés », se targue en effet d'être utilisé par plus de 20 000 « clients actifs » sur plus de 800 000 sites web (ce que nous n'avons pas pu vérifier).

Or, le plugin remplace les chiffres traduits par une « variable », « XNUMX », censée servir d' « espace réservé pour toutes les valeurs numériques ». Ce qui semble perturber, depuis des années, nombre de ses utilisateurs, forcés à devoir mettre à jour, à la main, chacun des chiffres en question automatiquement traduits.
Le moteur de recherche semble cela dit ne pas l'avoir remarqué : une recherche de XNUMX sur Google Actualités révèle en effet qu'y seraient indexés plus d'une centaine de milliers d'articles mis en ligne avant décembre 2022 (et donc avant le lancement de ChatGPT), mais également plus de 10 000 publiés il y a au moins 10 ans, avant décembre 2014.


Google modifie régulièrement les critères et paramètres de ses algorithmes d'indexation et de référencement. Faute de pouvoir remonter dans le temps, il est donc impossible de savoir depuis quand le moteur de recherche répertorie de la sorte ces articles traduits automatiquement, sans relecture ni validation humaine. Ni depuis quand ils peuvent ainsi apparaître dans Google Actualités.
Reste que Google Actualités ne semble donc pas, en l'état, capable d'identifier, non seulement les articles GenAI, mais également de discriminer ceux qui ont été copiés-collés voire traduits automatiquement, sans validation humaine, contribuant ainsi à renvoyer les internautes en quête d'informations journalistiques vers des articles générés par des IA, voire plagiés, et potentiellement erronés.
En attendant que Google répare ses algorithmes, Next a, à ce titre, développé une extension web afin d'alerter les internautes quant au fait que les contenus qu'ils consultent ont pu, en tout ou partie, être générés par des IA. Faute de temps, nous n'avons, cela dit, intégré qu'une toute petite partie de ces sites reposant sur ce type de traduction automatisée (et potentiellement erronée), préférant nous focaliser sur les sites créés par (et pour) des francophones.
NB : le nombre de sites web à vérifier était tel que cette enquête n'aurait pu être finalisée sans l'aide d'étudiants de l'école du nouveau Journalisme (EFJ), dans le cadre d'un atelier d'investigation web en mode OSINT & crowd-sourcing, en mai dernier. Ils avaient alors identifié une vingtaine de plagiaires, soit plus du tiers de la soixantaine de sites GenAI que nous avions alors répertoriés.
Merci donc à Romy Azoulay, Zoé Bailly, Célia Bouchard, Nelly Boulet Soulié, Allan Branger, Mathis Bremaud, Annette Brion, Nicolas Cecilon, Killian Chambaron, Maël Chrétien, Sofia Cingolani, Adèle Dreer, Mona Ferroudji, Maryne Giboire, Lola Goupy-Azevedo, Paul Janvier, Carla Jupiter, Victoria Kharlamoff, Darius Khoshnood, Milo Langrognet, Albane Papin, Kaliana Rakotoarivelo, Alexandre Renusson, Gabriel Rivals-Campagne, et Aurore Tarenne.
Google Actualités est truffé d’articles plagiés par des IA
-
Une véritable « pollution informationnelle », en pleine expansion
-
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
-
Des journalistes qui ont l'étrange pudeur d'anonymiser leurs noms
-
De 7 à plus de 20 articles par jour, une tâche herculéenne
-
« L'IA de Meta est une insulte aux hippopotames nains partout »
-
« Bonjour, n'hésitez pas à nous acheter un nom de domaine »
-
Un site d'info identitaire, conspirationniste, et (en partie) GenAI
-
« Vous ne trouverez pas de plagiat sur notre site »
-
140 000 articles indexés par Google Actus bien que traduits de façon erronée
Commentaires (25)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 14/02/2025 à 13h07
Sans même parler du nombre de nouveaux sites de news qui apparaissent en proposition avec des titres putaclick à gogo, ça en devient lassant.
Si vous avez des alternatives à Google Actualités je suis preneur.
Le 14/02/2025 à 17h25
Le 14/02/2025 à 22h29
Le 14/02/2025 à 13h16
Le 14/02/2025 à 13h52
Le 14/02/2025 à 14h21
Modifié le 14/02/2025 à 15h35
Le 14/02/2025 à 16h40
Le 15/02/2025 à 10h51
Le 14/02/2025 à 14h25
Et quand bien même on choisit l'un ou l'autre, alors on passe sur un autre paywall.
Le 14/02/2025 à 15h04
Le 14/02/2025 à 17h59
Le 14/02/2025 à 14h57
Bravo pour cet article dans lequel il y a un véritable travail journalistique, c'est exactement pour des articles de cette qualité que je suis abonné.
Le 14/02/2025 à 15h10
Aujourd’hui c’est principalement nous qui payons pour l’intérêt général, et ce n’est pas une solution soutenable dans de telles proportions sur le long terme.
D’où la solution de l’abonnement 😊
Modifié le 14/02/2025 à 15h27
Le 14/02/2025 à 15h19
Modifié le 14/02/2025 à 15h31
Le 14/02/2025 à 15h41
C'est vrai que la déferlante actuelle m'a fait virer toute page d'accueil liée à MSN, google actualités qui ne font que synthétiser des merdIA en boucle.
C'est caricatural: ça m'est arrivé d'avoir des vignettes d'articles avec les mêmes illustrations et presque le même titre :)
Le 14/02/2025 à 16h05
Microsoft et Google même combat : vendre de la pub coûte que coûte ! Strictement rien à battre de la désinformation ou du plagiat !
Le 14/02/2025 à 16h03
Modifié le 14/02/2025 à 16h14
Le 14/02/2025 à 16h24
Le 14/02/2025 à 19h19
Le 14/02/2025 à 20h35
Le 14/02/2025 à 22h08
Et l'illustration de Flock qui m'a ramené dans mon adolescence depravée
Fear and lauthing.. c'est tout à fait dans le ton d'ailleurs!