[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)
PutAIclics
![[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google) [Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)](https://next.ink/wp-content/uploads/2024/09/Ia-desinfo.webp)
flock
Next a identifié plus de 1 000 sites web d'information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduits par des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia. Vu l'ampleur du problème, nous avons proposé au service de fact-checking CheckNews de Libération de nous aider à enquêter sur ce qui s'apparente à une véritable « pollution » numérique et médiatique. Premier volet de notre enquête.
Le 06 février à 08h02
28 min
Société numérique
Société
La société NewsGuard évalue « tous les sites d’information et d’actualité (plus de 7 500 sites) dont les contenus représentent 95 % de l’engagement avec l’actualité en ligne aux États-Unis, au Royaume-Uni, au Canada, en France, en Allemagne et en Italie ».
Son observatoire de suivi de la mésinformation facilitée par l'IA répertorie par ailleurs 1 150 « sites d'actualité non fiables générés par l'IA » (GenAI ou « UAINS », pour « Unreliable AI-generated News Sites » en anglais), contre seulement 49 lorsqu'elle avait commencé à les recenser, en mai 2023.
NewsGuard souligne que « ces sites portent généralement des noms génériques [...] qui ressemblent pour le lecteur à des sites d’actualité classiques » :
« Dans de nombreux cas, le modèle économique de ces sites repose sur la publicité programmatique – des publicités placées de manière algorithmique par les sociétés d’ad-tech sans se soucier de la nature ou de la qualité des sites. Par conséquent, des grandes marques soutiennent ces sites involontairement. »
Or, leurs articles « contiennent parfois de fausses affirmations, telles que des infox sur la mort de célébrités, des événements fabriqués de toutes pièces et des articles présentant des événements anciens comme s’ils venaient de se produire ».
Accessible sur abonnement, sa liste de sites GenAI, établie par près de 15 fact-checkers, concerne 16 langues. Contactée par CheckNews, la société précise que sa base de données ne contiendrait qu'une vingtaine de sites en français.
Next en a de son côté identifié plus de 1 000, rien qu'en français. Et nous avons de bonnes raisons de penser qu'il en existerait plusieurs milliers, au vu du nombre de professionnels qui ont industrialisé la production de sites d'informations générés par IA. Nous avons en effet identifié une centaine de ces pros de l'info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d'autres se seraient lancés dans ce douteux (mais lucratif) « business ».
Signe de l'ampleur du problème et de son inflation, cette sous-estimation (tant dans les chiffres de NewsGuard que les nôtres) semble indiquer que nous serions débordés par le phénomène, qui s'apparente à une véritable « pollution » numérique et médiatique.
Une pollution quasi invisible, puisque personne ou presque ne semblait l'avoir identifiée jusque-là. En tout cas, pas à ce point.
Une « forme hybride de plagiat » facilitée, voire générée par IA
Mi-octobre, Olivier Marino, directeur adjoint des rédactions du groupe Nice Matin, déplorait sur LinkedIn une « forme hybride de plagiat » facilitée, voire générée par l'IA. Un « média d'information et d'actualité », situé lui aussi dans le Var, publie en effet des articles « sur des histoires où nous étions parfois le seul média présent ». Ce média reprend à son compte les informations recueillies par les journalistes de Nice Matin, mais « sans source, ni lien ».
L'analyse d'un échantillon de 46 articles, effectuée par une start-up spécialisée dans la détection de contenus générés par IA, « a pu déterminer que 32 d'entre eux avaient été – selon son outil – générés via de l'IA reprenant les informations de Var-matin, mais aussi d'autres médias locaux ».
En réponse, 60 millions de consommateurs, « média sans publicité commerciale et ne vivant que de ses ventes », déplorait que ses articles étaient « très rapidement plagiés et republiés depuis des années sur des sites web truffés de pub et en accès gratuit ». Surtout ses essais comparatifs, « particulièrement coûteux à réaliser, dont l'intégralité des résultats est souvent ainsi diffusée gratuitement » :
« Jusque-là, il s'agissait surtout de réécritures "manuelles" sur les sites web de "vrais" groupes de presse (notamment un dont le nom commence par "Re"). Mais on commence à voir désormais des reprises de nos articles par des sites inconnus au bataillon, vraisemblablement rédigées par de pures IA, et très très bien classés chez Google. La presse locale est donc loin d'être la seule concernée. »
Nous avons alors répondu que nous nous apprêtions à publier une enquête à ce sujet, « ayant identifié plus de 100 sites en français se faisant passer pour des sites d'informations reposant sur le travail de journalistes, mais qui sont en fait générés par des IA, dont près de 30 reposent sur du plagiat (majoritairement d'articles étrangers, traduits en français) ».
Compte tenu du nombre d'acteurs impliqués, de médias parasités voire plagiés, et des nombreuses questions (déontologiques, juridiques, légales, médiatiques, financières, notamment) que cette prolifération de sites d'info GenAI soulève, nous avons depuis proposé au service CheckNews de fact-checking de Libération d'enquêter avec nous à ce sujet (voir leur enquête).
De 100 à plus de 1 000 sites GenAI en quelques mois seulement
Le phénomène s'est, en effet, révélé d'une ampleur nettement supérieure à ce que nous anticipions. Fin octobre (soit 15 jours après notre commentaire sur LinkedIn), lorsque nous avons contacté Libé, notre base de données était passée à 270 sites d'info GenAI. Le cap des 500 a été franchi à la veille de Noël, celui des 800 mi-janvier.
Entamée il y a près d'un an, notre enquête nous a depuis permis d'en identifier plus de 1 000, soit près de 750 de plus en seulement trois mois, dont une centaine au moins relevant du plagiat (nous y reviendrons dans un prochain article). Ce n'est pas tant que le phénomène serait en pleine expansion (une bonne partie de ces sites existent depuis des mois, voire des années), mais parce que nous avons affiné nos méthodes de détection.
La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l'un des messages d'erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d'infos GenAI qui, eux-mêmes, nous ont permis d'en identifier près de 250 autres, liés d'une manière ou d'une autre à leurs éditeurs respectifs. Ce, en moins d'une journée.
Nous revenons plus en détails sur les tactiques et procédures permettant de reconnaître les sites GenAI dans un second article dédié. Nous ne saurions par ailleurs que trop vous conseiller d'installer l'extension pour navigateur que nous avons développée afin d'alerter ses utilisateurs lorsqu'ils consultent un site dont les articles ont été, en tout ou partie, générés par IA.
- Comment reconnaître les sites (d’infos) générés par des IA ?
- [Outils Next] Une extension Chrome et Firefox pour être alerté des sites GenAI
S'il était prévisible que des pirates de l'info se saisissent des IA génératives pour développer de tels médias, il est par contre incompréhensible que la plupart de ces sites, référencés depuis des mois ou des années sur Google Actualités, n'en aient toujours pas été exclus, plus de deux ans après le lancement de ChatGPT puis de ses avatars.
Le SEO est-il mort ?
En janvier 2023, deux mois seulement après le lancement de ChatGPT, nous écrivions en effet que la démocratisation des intelligences artificielles génératives allait « faciliter la production d’éléments textuels assez banals, surtout destinées à booster son référencement sur Google ». Cela posait de « nouveaux risques » en matière d’accès à l'information.
Un mois plus tard, dans un article intitulé « IA : les robots conversationnels vont-ils cannibaliser les moteurs de recherche ? », nous relevions que des professionnels du référencement (ou SEO, pour « Search Engine Optimization ») s'inquiétaient de l'arrivée annoncée de ChatGPT dans Bing, et de son concurrent Bard dans Google. La question était posée : « Le SEO est-il mort ? ».
Un an plus tard, le SEO est toujours là, mais l'IA a changé la donne : par son intermédiaire, des éditeurs inondent Google Actualités de prétendus sites d'information et d'articles GenAI.
Non contents de piller à bas coûts les articles de médias rémunérant leurs journalistes, ils privent leurs rédactions des revenus publicitaires qu'ils auraient pu engendrer si les internautes avaient lu les articles originaux, et non leurs plagiats générés par IA.
Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI
Il reste 72% de l'article à découvrir.
Déjà abonné ? Se connecter

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vous[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)
-
Une « forme hybride de plagiat » facilitée, voire générée par IA
-
De 100 à plus de 1 000 sites GenAI en quelques mois seulement
-
Le SEO est-il mort ?
-
Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI
-
Près de 50 % des sites GenAI étaient mentionnés dans Wikipédia
-
Une extension web pour identifier les sites (en tout ou partie) GenAI
-
Des IA pour remplacer les « travailleurs du clic » sous-payés
-
Des risques de mésinformation et de contrefaçon « assistées par l’IA »
-
À compter d'août 2026, les contenus GenAI devront être identifiables
-
Google ne distingue pas les articles journalistiques des contenus GenAI
-
Les réponses de Google
-
La responsabilité de Google dans les dérives de la presse sur Internet
Commentaires (64)
Le 06/02/2025 à 08h04
Le 06/02/2025 à 08h08
Le 06/02/2025 à 08h11
Le 06/02/2025 à 08h19
Modifié le 06/02/2025 à 09h38
https://addons.mozilla.org/fr/firefox/addon/alerte-sur-les-sites-genai/
Le 06/02/2025 à 08h38
Le 06/02/2025 à 09h01
Le 06/02/2025 à 09h37
Le 06/02/2025 à 10h24
Le 06/02/2025 à 10h41
Le 06/02/2025 à 09h01
Le 06/02/2025 à 15h07
... c'est qu'on a mal éduqué son µBlock.
Le 06/02/2025 à 17h59
Le 06/02/2025 à 18h15
Modifié le 06/02/2025 à 09h12
Je rajouterais également la responsabilité de la presse aussi.
Titre putaclic, article bidon pour mettre des liens sponsorisés/affiliés, etc.
A se demander si l’abaissement de la qualité des articles de presse en ligne a pu favoriser le fait que ces sites IA ont pu se fondre dans la masse..
Le 06/02/2025 à 09h17
Le 06/02/2025 à 09h38
Le 06/02/2025 à 10h29
Dans le désordre (à chacun de se faire son analyse de causalité et les liens systémiques entre ces trucs) :
- La presse est dépendante de la pub
- la presse est détenue par des milliardaires
- La presse est délaissée par la population
- La population ne considère plus comme normal de faire un effort intellectuel, temporel, financier pour s'informer
- La population n'a plus le loisir ni les moyens de s'informer correctement
- La classe politique utilise la presse comme arme de désinformation
- La presse des miliardaires et la classe politique censurent/invibilisent/ridiculisent ce qui peut les menacer dans leur entre-soi
- La population ne croit plus en la presse et se tourne vers ce qui maximise l'engagement au détriment de la véracité
Next, vous pouvez faire un petit graphe de causalité selon votre point de vue ? (oui c'est très méta comme sujet donc c'est peut-être pas votre tasse de thé, mais c'est très lié à l'article en question) Surtout après ce super article.
Le 06/02/2025 à 10h59
Je ne pense pas qu'il faille se considérer à part.
Le 06/02/2025 à 11h04
Le 06/02/2025 à 09h22
1000 mots de saurons être suffisant pour vous féliciter pour cette enquête au long court.
En suggestion, je vous invite à mettre également le lien de votre extension en bas de l'article (lien d'utilité publique) pour pouvoir le retrouver facilement. En plus du lien dans le texte, cela va sans dire.
Peut être un jour, grâce à l'IA (et surtout sa "pollution SEO"), reviendront nous à l'époque presque bénie où les moteurs de recherche n'existaient pas (enfin pas comme aujourd'hui), et où il y avait des catalogues de sites, classés et triés par des humains pour des humains (comme DMOZ, qui existe toujours !)
Le 06/02/2025 à 09h23
Ça me fait rire (jaune) de lire que l’IA est utilisée pour chercher à faire encore plus de fric facilement. Les promoteurs de l’IA mettent souvent en avant les progrès attendus en médecine (tiens, c’était aussi l’argument pour la 5G). Mais ce qu’on voit massivement, c’est des photos ou des vidéos truquées, des articles bidons, des devoirs d’élèves.
Monde de merde …
Le 06/02/2025 à 10h00
Le 06/02/2025 à 10h21
Le 06/02/2025 à 09h32
Ça leur a pris 15 ans. Le vrai problème c'est que quand ils passent à une nouvelle connerie ils arrêtent pas complètement celles d'avant, du coup ça fait juste plus de bêtise à gérer. L'expression "the shit hits the fan" prend de plus en plus de sens.
Le 06/02/2025 à 10h07
C'est incroyable l'ingéniosité humaine pour faire du fric en faisant de la m...
Le 06/02/2025 à 10h15
Continuez comme ça :)
Modifié le 06/02/2025 à 10h33
Et merci pour cette enquête.
Le 06/02/2025 à 12h01
Je vais aussi publier le code, ca permettrait à tout un chacun de proposer des évolutions/améliorations :)
Le 06/02/2025 à 10h35
Le 06/02/2025 à 11h11
Je ne peux pas m'empêcher de penser à la fabrique du consentement...
C'est clairement un outil providentiel pour un tel projet de manipulation des consciences...
Le 06/02/2025 à 12h26
Modifié le 06/02/2025 à 16h03
Je me suis même mis à faire qq recherches sur la base de cet article et ai vite trouvé des points commun à cette galaxie de site merdiques (CMS OpenCart, proxy CloufFlare), j'ai trouvé une boite FR avec plusieurs centaines de milliers d'euros de CA...
Le 06/02/2025 à 11h46
Modifié le 06/02/2025 à 16h07
@AlexandreLaurent modère ce post si le lien pose un pb.
Le 06/02/2025 à 13h26
Je n'ose pas dire "utiliser de l'IA" pour apprendre à classer les sites à partir de ces paramètres ^^
Le 06/02/2025 à 11h52
Google a joué avec le feu, ils sont les grands responsables de cette pollution du Web.
Dans un autre genre, il y a Microsoft avec MSN ce machin 100% putaclic qui propose des articles sponsorisés vers des sites qui plagient des sites comme celui du Figaro (un exemple ici) avec de faux articles (La Banque de France engage une procédure judiciaire contre Adriana Karembeu). Je ne comprends pas que Le Figaro n'est pas encore porté plainte contre Microsoft !
Le 06/02/2025 à 12h41
Le 06/02/2025 à 13h04
Pour le retrouver il faut aller sur MSN et chercher le mot "senior" (un encart avec une photo qui ressemble à Adriana Karembeu et un titre "Les seniors français peuvent maintenant gagner un revenu en ligne."), il faut peut être recharger plusieurs fois pour que Microsoft le balance dans sa page.
Sinon j'ai des captures d'écran.
Et en ce moment c'est Adriana le pot de miel, mais d'autres personnalités ont été utilisées et d'autres sites plagiés (Le Monde de mémoire).
Modifié le 06/02/2025 à 14h44
Le lien fonctionne sans paramètre : https://gradecode.com/fr/ (j'espère qu'il fonctionne pour vous).
Le contenu du lien est identique au précédent, un article fallacieux plagiant le site du Figaro, mais là le domaine de l'URL change.
Il y a probablement une grosse arnaque derrière, mais Microsoft dira : "on n'y est pour rien" !
MAJ :
Les liens dans l'article bidon ne fonctionne pas, il faut au moins un paramètre : https://gradecode.com/fr/?contentAdId=189640417
Modifié le 06/02/2025 à 12h32
Le 06/02/2025 à 13h17
première réflexion qui me vient : et si on n'utilise pas Google ? (comme moteur de recherche) Est-ce que l'on évite ces faux sites ? Question subsidiaire : quel moteur de recherche le permettrait ?
Le 06/02/2025 à 13h35
Le 06/02/2025 à 13h43
Non je déconne ^^
Le 06/02/2025 à 13h52
Le 06/02/2025 à 14h48
Le 06/02/2025 à 16h18
Le 06/02/2025 à 14h07
Et comme la plupart des moteurs de recherche "éthiques" s'appuient en grande partie soit sur l'index de Google soit sur celui de Bing... rien n'est fait à ce stade.
Qwant aurait à mon sens une carte à jouer en la matière puisqu'ils sont censés travailler à la création d'un nouvel index, mais j'ai peur que leur priorité soit plutôt d'intégrer de l'IA dans l'affichage de leurs résultats et surtout de générer du chiffre d'affaires...
Le 06/02/2025 à 14h31
Le 06/02/2025 à 14h17
Et oui, c'est affligeant
Le 06/02/2025 à 18h24
Le 06/02/2025 à 23h22
Modifié le 07/02/2025 à 09h17
Ça renforce l'idée qu'il est dans l'intérêt de Google Ads, que les résultats des recherches ne soient pas trop bons (forçant les utilisateurs à faire plus de recherches, dont à voir plus de publicités)...
Le 07/02/2025 à 11h20
Le 10/02/2025 à 13h10
Je me suis étouffé en lisant ça ! il faut aller à la page 2 ou 3 avant de commencer à avoir quelques résultats utiles !
Si il n'y avait qu'1% de spam il est largement priorisé sur le reste !
Le 14/02/2025 à 17h30
Le 22/02/2025 à 18h15
Par exemple 1 2 3 4 5
Le 24/02/2025 à 05h11
Le 24/02/2025 à 12h14
Modifié le 24/02/2025 à 18h34
L'extension dit : Si la constatation est humaine, je veux bien que l'humain ait raté que le site était le bugtracker de wine et donc pas généré par IA et encore, winehq.org est quand même connu.
Mais pourquoi le mettre en liste blanche alors qu'il suffit de le supprimer de la liste noire.
La seule raison que je vois qui justifierait ce choix de mise en liste blanche est que la liste noire est générée automatiquement et donc pas par un ou des humains.
Le 24/02/2025 à 19h40
Corrigé depuis
Le 24/02/2025 à 20h28
En gros, c'est un filtre de Bloom. Ce filtre permet de savoir si un élément X (ici un nom de domaine) appartient à un ensemble A (ici, les noms de domaines de site générés par IA) et présente les caractéristiques suivantes :
- les éléments de A ne sont pas divulgués
- un élément X non trouvé dans A indique avec certitude que X n'est pas dans A
- un élément X trouvé dans A indique avec une certaine probabilité la présence de X dans A (mais il peut y avoir des faux positifs).
Le taux de faux positif dépend de la taille du filtre (qui est "indépendant" du nombre d'éléments dans A, ou, pour utiliser des gros mots mathématiques, de la cardinalité de A).
De part le fonctionnement du filtre de Bloom, retirer un élément de la liste n'est pas possible, surtout s'il s'agit d'un faux positif ! Il est donc nécessaire d'avoir une liste blanche pour cela.
Au passage, je rappelle juste que le choix d'un filtre de Bloom est pertinent ici (le fait que les éléments de A ne sont pas connus), dans la mesure où l'équipe s'est exprimée sur son souhait de ne pas divulguer la liste des domaines présents dans la liste noire.
Modifié le 24/02/2025 à 20h38
En fait, ce n'est pas un bug comme le disait JMM mais une caractéristique de ce type de filtre.
Le 26/02/2025 à 15h21