Google Actualités est truffé d’articles plagiés par des IA
Générateurs de plagIAts
Plus d'une centaine (au moins) des 1 500 sites francophones d'information générés en tout ou partie par des IA que nous avons identifiés plagient des articles de véritables journalistes, sans mentionner leurs sources ni préciser qu'ils ont été générés avec des IA. Ils sont, pour la plupart, référencés sur Google Actualités, et parfois relayés par son IA Discover. Certains se contentent de traduire des articles en français quand d'autres les paraphrasent, rendant leurs plagiats plus difficiles à identifier.
Le 14 février à 12h32
26 min
Société numérique
Next
Le site News.dayFR.com, qui plagie jusqu'à 6 000 articles par jour et vient de faire l'objet d'un recours en justice de la part de 40 médias français, n'est que la partie émergée de l'iceberg des prétendus sites d'information générés par des intelligences artificielles (GenAI, pour Generative AI en anglais) reposant sur du plagiat.
Comme indiqué dans le premier volet de notre enquête, notre base de données recensait une centaine de sites d'infos GenAI mi-octobre, plus de 250 fin octobre, 500 à la veille de Noël, 850 mi-janvier, plus de 1 000 en ce début février, et plus de 1 500 depuis la publication de notre enquête.
Une explosion qui ne témoigne pas tant, cela dit, d'une explosion récente de ce type de sites (certains étaient déjà référencés par Google avant même le lancement de ChatGPT, fin 2022), mais d'une amélioration de nos méthodes de détection. Il nous a fallu du temps, en effet, pour affiner notre regard, parvenir à accumuler nombre de « signaux faibles » et indicateurs des contenus GenAI, au point d'estimer qu'ils seraient probablement des (dizaines ?) de milliers, rien qu'en français.
Ce pourquoi nous avons aussi développé une extension (pour les navigateurs basés sur Chromium et Firefox) afin d'alerter les internautes lorsqu'ils consultent un site reposant, « en tout ou partie », sur des articles GenAI, mais également de permettre à ses utilisateurs de nous adresser des signalements concernant des sites que nous n'aurions pas encore identifiés (ce qui nous a d'ailleurs permis d'en rajouter plusieurs dizaines depuis son lancement).
Jamais nous n'aurions imaginé l'ampleur qu'a pris cette enquête, entamée il y a maintenant plus d'un an. Ce pourquoi nous avons donc aussi proposé à Libération et son service de fact-checking CheckNews de s'y atteler avec nous, au vu du nombre de sites, et de problématiques, auxquels nous sommes confrontés (cf leur enquête, l'article sur les coulisses de celle de Next, et leurs articles – eux aussi sous paywall – au sujet de «News of Marseille», le site touristique à la sauce IA, les «petites mains» africaines du web remplacées par ChatGPT, et comment l’IA modifie les pratiques des journalistes).
Une véritable « pollution informationnelle », en pleine expansion
Nous avons cessé de comptabiliser les sites d'infos générés par IA (GenAI) reposant sur du plagiat au bout d'un peu plus de 100. D'une part parce que, au-delà de ce chiffre symbolique, l'identification des 1 000 sites d'infos francophones GenAI que nous avions initialement répertoriés nous a déjà pris un temps (littéralement) dément, nonobstant le fait que notre extension en dénombre donc désormais plus de 1 500.
D'autre part parce que le fait d'identifier qu'un site est GenAI est une tâche qui peut s'avérer relativement facile (cf notre mode d'emploi). A contrario, la reconnaissance des plagiats s'avère parfois bien plus ardue, et prend donc encore plus de temps.
Nous avons également cessé de répertorier les sites GenAI relevant du plagiat au bout de 100 parce qu'ils sont tellement nombreux à recourir à des générateurs d'articles par IA optimisés pour Google Actualités et son IA Discover (nous y reviendrons) que leur nombre ne change pas grand-chose : nous sommes confrontés à une véritable « pollution informationnelle », en pleine expansion, et dont la prolifération soulève de nombreuses questions économiques, sociales et politiques, comme le souligne notre édito.
Le problème n'est pas tant qu'ils soient 100, 200, 500 ou (vraisemblablement) plusieurs milliers à pomper et plagier des articles écrits par des journalistes professionnels et humains : le simple fait que plus de 100 médias GenAI reposant sur du plagiat aient réussi à être référencés par Google Actualités, pour certains depuis des années, montre que ses algorithmes ont (et posent) de très gros problèmes.
Il n'est pas rare que deux des 15 articles mis en avant sur Google Discover, son IA de recommandation d'actualités, soient des articles GenAI, même et y compris avec des titres putaclics, relayant des informations « hallucinées » par les IA (nous y reviendrons également), et illustrées par des images elles-mêmes GenAI.



C'est d'ailleurs précisément après avoir commencé à recevoir des alertes Google renvoyant vers de tels articles GenAI que cette enquête a débuté. Ces articles, générés par des IA, relaient de nombreuses fausses informations. Ils ne sauraient dès lors être considérés comme fiables, et devraient donc être blacklistés par Google Actualités et son IA Discover.
Si vous voulez un exemple de ce que peut proposer une IA générative en se basant sur des communiqués de presse, nous avons monté un site GenAI (en 2 h, pour 1,2 euro par mois).
Plusieurs de ces articles GenAI ont en outre été mentionnés comme « sources » par des journalistes professionnels en lieu et place de ceux qu'ils plagient, et de nombreux internautes ont pu les lire, commenter voire partager sur les réseaux sociaux, sans même se rendre compte qu'il s'agissait d'articles générés par IA, non fiables, voire complètement erronés (nous y reviendrons).
Or, et comme indiqué dans le premier volet de notre enquête, sur les 148 sites initialement mentionnés comme « sources » sur l'encyclopédie collaborative Wikipédia (sur les 327 sites que nous avions alors identifiés en novembre), 105 avaient recours à l'IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA).
Sachant, par ailleurs, que 284 autres des sites GenAI de notre base de données (sur 750 recherchés, soit près de 38 %) ont depuis été, eux aussi, identifiés comme ayant été mentionnés sur Wikipédia (qui interdit les mentions de plagiats, et de sites GenAI, notamment).
Nous sommes conscients que ces 1 500 sites ne sont probablement que la partie émergée de l'iceberg des contenus GenAI indexés par Google et consorts. Ils sont probablement des (dizaines de) milliers d'autres à polluer le web de la sorte (a fortiori si l'on y rajoute les sites GenAI non-francophones), mais le problème ne fait que commencer, et il est donc urgent de s'y atteler.
Ce pourquoi il nous a semblé important d'expliquer comment nous avons pu identifier les sites GenAI reposant sur du plagiat, omettant sciemment de mentionner les articles dont ils s'inspirent, traduisent, voire paraphrasent, en l'illustrant par quelques exemples choisis, représentatifs de leurs modus operandi.
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
Le samedi 13 janvier 2024, à 5h40 du matin, un certain Charles A., qui se présente comme un « expert en produits chinois », publiait par exemple sur le site netcost-security.fr un article intitulé « Comment humaniser ChatGPT pour rendre ses textes indétectables » (il a depuis été effacé, mais nous l'avions archivé) :
« Dans les paragraphes suivants, je vais vous donner quelques conseils pour améliorer la qualité des textes de ChatGPT, en les rendant plus humains et surtout indétectables par d’autres personnes. De cette façon, vous pourrez exploiter ses capacités pour générer du contenu sans que personne ne s’en rende compte. »
Il reste 74% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Google Actualités est truffé d’articles plagiés par des IA
-
Une véritable « pollution informationnelle », en pleine expansion
-
« Comment humaniser ChatGPT pour rendre ses textes indétectables »
-
Des journalistes qui ont l'étrange pudeur d'anonymiser leurs noms
-
De 7 à plus de 20 articles par jour, une tâche herculéenne
-
« L'IA de Meta est une insulte aux hippopotames nains partout »
-
« Bonjour, n'hésitez pas à nous acheter un nom de domaine »
-
Un site d'info identitaire, conspirationniste, et (en partie) GenAI
-
« Vous ne trouverez pas de plagiat sur notre site »
-
140 000 articles indexés par Google Actus bien que traduits de façon erronée
Commentaires (25)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 14/02/2025 à 13h07
Sans même parler du nombre de nouveaux sites de news qui apparaissent en proposition avec des titres putaclick à gogo, ça en devient lassant.
Si vous avez des alternatives à Google Actualités je suis preneur.
Le 14/02/2025 à 17h25
Le 14/02/2025 à 22h29
Le 14/02/2025 à 13h16
Le 14/02/2025 à 13h52
Le 14/02/2025 à 14h21
Modifié le 14/02/2025 à 15h35
Le 14/02/2025 à 16h40
Le 15/02/2025 à 10h51
Le 14/02/2025 à 14h25
Et quand bien même on choisit l'un ou l'autre, alors on passe sur un autre paywall.
Le 14/02/2025 à 15h04
Le 14/02/2025 à 17h59
Le 14/02/2025 à 14h57
Bravo pour cet article dans lequel il y a un véritable travail journalistique, c'est exactement pour des articles de cette qualité que je suis abonné.
Le 14/02/2025 à 15h10
Aujourd’hui c’est principalement nous qui payons pour l’intérêt général, et ce n’est pas une solution soutenable dans de telles proportions sur le long terme.
D’où la solution de l’abonnement 😊
Modifié le 14/02/2025 à 15h27
Le 14/02/2025 à 15h19
Modifié le 14/02/2025 à 15h31
Le 14/02/2025 à 15h41
C'est vrai que la déferlante actuelle m'a fait virer toute page d'accueil liée à MSN, google actualités qui ne font que synthétiser des merdIA en boucle.
C'est caricatural: ça m'est arrivé d'avoir des vignettes d'articles avec les mêmes illustrations et presque le même titre :)
Le 14/02/2025 à 16h05
Microsoft et Google même combat : vendre de la pub coûte que coûte ! Strictement rien à battre de la désinformation ou du plagiat !
Le 14/02/2025 à 16h03
Modifié le 14/02/2025 à 16h14
Le 14/02/2025 à 16h24
Le 14/02/2025 à 19h19
Le 14/02/2025 à 20h35
Le 14/02/2025 à 22h08
Et l'illustration de Flock qui m'a ramené dans mon adolescence depravée
Fear and lauthing.. c'est tout à fait dans le ton d'ailleurs!
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?