Connexion Premium

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

PutAIclics

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

Illustration : Flock

Next a identifié plus de 1 000 sites web d’information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduits par des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia. Vu l’ampleur du problème, nous avons proposé au service de fact-checking CheckNews de Libération de nous aider à enquêter sur ce qui s’apparente à une véritable « pollution » numérique et médiatique. Premier volet de notre enquête.

Le 06 février 2025 à 08h02

La société NewsGuard évalue « tous les sites d’information et d’actualité (plus de 7 500 sites) dont les contenus représentent 95 % de l’engagement avec l’actualité en ligne aux États-Unis, au Royaume-Uni, au Canada, en France, en Allemagne et en Italie ».

Son observatoire de suivi de la mésinformation facilitée par l’IA répertorie par ailleurs 1 150 « sites d’actualité non fiables générés par l’IA » (GenAI ou « UAINS », pour « Unreliable AI-generated News Sites » en anglais), contre seulement 49 lorsqu’elle avait commencé à les recenser, en mai 2023.

NewsGuard souligne que « ces sites portent généralement des noms génériques […] qui ressemblent pour le lecteur à des sites d’actualité classiques » :

« Dans de nombreux cas, le modèle économique de ces sites repose sur la publicité programmatique – des publicités placées de manière algorithmique par les sociétés d’ad-tech sans se soucier de la nature ou de la qualité des sites. Par conséquent, des grandes marques soutiennent ces sites involontairement. »

Or, leurs articles « contiennent parfois de fausses affirmations, telles que des infox sur la mort de célébrités, des événements fabriqués de toutes pièces et des articles présentant des événements anciens comme s’ils venaient de se produire ».

Accessible sur abonnement, sa liste de sites GenAI, établie par près de 15 fact-checkers, concerne 16 langues. Contactée par CheckNews, la société précise que sa base de données ne contiendrait qu’une vingtaine de sites en français.

Next en a de son côté identifié plus de 1 000, rien qu’en français. Et nous avons de bonnes raisons de penser qu’il en existerait plusieurs milliers, au vu du nombre de professionnels qui ont industrialisé la production de sites d’informations générés par IA. Nous avons en effet identifié une centaine de ces pros de l’info GenAI, sans pouvoir mesurer combien de dizaines (voire de centaines) d’autres se seraient lancés dans ce douteux (mais lucratif) « business ».

Signe de l’ampleur du problème et de son inflation, cette sous-estimation (tant dans les chiffres de NewsGuard que les nôtres) semble indiquer que nous serions débordés par le phénomène, qui s’apparente à une véritable « pollution » numérique et médiatique.

Une pollution quasi invisible, puisque personne ou presque ne semblait l’avoir identifiée jusque-là. En tout cas, pas à ce point.

MàJ, 1er mars 2026 : un an après la publication de ce premier article, notre base de données recense plus de 10 000 sites d’informations en tout ou partie générées par IA, auxquels nous avons consacrés une quarantaine d’articles, résumés dans cet article de récap’ :

Une « forme hybride de plagiat » facilitée, voire générée par IA

Mi-octobre, Olivier Marino, directeur adjoint des rédactions du groupe Nice Matin, déplorait sur LinkedIn une « forme hybride de plagiat » facilitée, voire générée par l’IA. Un « média d’information et d’actualité », situé lui aussi dans le Var, publie en effet des articles « sur des histoires où nous étions parfois le seul média présent ». Ce média reprend à son compte les informations recueillies par les journalistes de Nice Matin, mais « sans source, ni lien ».

L’analyse d’un échantillon de 46 articles, effectuée par une start-up spécialisée dans la détection de contenus générés par IA, « a pu déterminer que 32 d’entre eux avaient étéselon son outil – générés via de l’IA reprenant les informations de Var-matin, mais aussi d’autres médias locaux ».

En réponse, 60 millions de consommateurs, « média sans publicité commerciale et ne vivant que de ses ventes », déplorait que ses articles étaient « très rapidement plagiés et republiés depuis des années sur des sites web truffés de pub et en accès gratuit ». Surtout ses essais comparatifs, « particulièrement coûteux à réaliser, dont l’intégralité des résultats est souvent ainsi diffusée gratuitement » :

« Jusque-là, il s’agissait surtout de réécritures « manuelles » sur les sites web de « vrais » groupes de presse (notamment un dont le nom commence par « Re »). Mais on commence à voir désormais des reprises de nos articles par des sites inconnus au bataillon, vraisemblablement rédigées par de pures IA, et très très bien classés chez Google. La presse locale est donc loin d’être la seule concernée. »

Nous avons alors répondu que nous nous apprêtions à publier une enquête à ce sujet, « ayant identifié plus de 100 sites en français se faisant passer pour des sites d’informations reposant sur le travail de journalistes, mais qui sont en fait générés par des IA, dont près de 30 reposent sur du plagiat (majoritairement d’articles étrangers, traduits en français) ».

Compte tenu du nombre d’acteurs impliqués, de médias parasités voire plagiés, et des nombreuses questions (déontologiques, juridiques, légales, médiatiques, financières, notamment) que cette prolifération de sites d’info GenAI soulève, nous avons depuis proposé au service CheckNews de fact-checking de Libération d’enquêter avec nous à ce sujet (voir leur enquête).

De 100 à plus de 1 000 sites GenAI en quelques mois seulement

Le phénomène s’est, en effet, révélé d’une ampleur nettement supérieure à ce que nous anticipions. Fin octobre (soit 15 jours après notre commentaire sur LinkedIn), lorsque nous avons contacté Libé, notre base de données était passée à 270 sites d’info GenAI. Le cap des 500 a été franchi à la veille de Noël, celui des 800 mi-janvier.

Entamée il y a près d’un an, notre enquête nous a depuis permis d’en identifier plus de 1 000, soit près de 750 de plus en seulement trois mois, dont une centaine au moins relevant du plagiat (nous y reviendrons dans un prochain article). Ce n’est pas tant que le phénomène serait en pleine expansion (une bonne partie de ces sites existent depuis des mois, voire des années), mais parce que nous avons affiné nos méthodes de détection.

La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l’un des messages d’erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d’infos GenAI qui, eux-mêmes, nous ont permis d’en identifier près de 250 autres, liés d’une manière ou d’une autre à leurs éditeurs respectifs. Ce, en moins d’une journée.

Nous revenons plus en détails sur les tactiques et procédures permettant de reconnaître les sites GenAI dans un second article dédié. Nous ne saurions par ailleurs que trop vous conseiller d’installer l’extension pour navigateur que nous avons développée afin d’alerter ses utilisateurs lorsqu’ils consultent un site dont les articles ont été, en tout ou partie, générés par IA.

S’il était prévisible que des pirates de l’info se saisissent des IA génératives pour développer de tels médias, il est par contre incompréhensible que la plupart de ces sites, référencés depuis des mois ou des années sur Google Actualités, n’en aient toujours pas été exclus, plus de deux ans après le lancement de ChatGPT puis de ses avatars.

Le SEO est-il mort ?

En janvier 2023, deux mois seulement après le lancement de ChatGPT, nous écrivions en effet que la démocratisation des intelligences artificielles génératives allait « faciliter la production d’éléments textuels assez banals, surtout destinées à booster son référencement sur Google ». Cela posait de « nouveaux risques » en matière d’accès à l’information.

Un mois plus tard, dans un article intitulé « IA : les robots conversationnels vont-ils cannibaliser les moteurs de recherche ? », nous relevions que des professionnels du référencement (ou SEO, pour « Search Engine Optimization ») s’inquiétaient de l’arrivée annoncée de ChatGPT dans Bing, et de son concurrent Bard dans Google. La question était posée : « Le SEO est-il mort ? ».

Un an plus tard, le SEO est toujours là, mais l’IA a changé la donne : par son intermédiaire, des éditeurs inondent Google Actualités de prétendus sites d’information et d’articles GenAI.

Non contents de piller à bas coûts les articles de médias rémunérant leurs journalistes, ils privent leurs rédactions des revenus publicitaires qu’ils auraient pu engendrer si les internautes avaient lu les articles originaux, et non leurs plagiats générés par IA.

Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI

Une bonne partie de ces 1 000 sites sont répertoriés par Google Actualités ou cherchent à l’être (soulignant, comme s’il s’agissait d’une caution, qu’ils y ont été « approuvés »). Pourtant, leurs articles se bornent à utiliser des IA pour identifier, traduire en français, voire copier-coller de façon automatisée des articles émanant de journalistes. Ces derniers ne sont jamais mentionnés, et leurs sources quasiment jamais citées.

Non content d’induire leurs lecteurs en erreur en leur faisant croire que les informations relayées ont été vérifiées par des journalistes, ces sites GenAI vont jusqu’à relayer des informations « hallucinées » par leurs IA, donc erronées. Nous y reviendrons, dans un article à paraître sur ces « hallucinations ».

Nous avons aussi identifié environ 90 (auto-)entreprises responsables de plus des trois quarts de ces sites, dont l’écrasante majorité émanent de professionnels du SEO. Plus de 50 d’entre elles administrent au moins cinq sites GenAI, plus de 30 dix sites ou plus, 10 plus de 20, cinq plus de 30 et deux plus de 90 (au moins).

Y figurent aussi cinq entreprises se présentant comme des médias ou groupes de presse, supposées employer des journalistes (nous y reviendrons également). De nombreux sites prodiguent des conseils en matière de high-tech, de finance (notamment en termes de « cryptoactifs », d’assurance-vie, retraite ou d’ETF), de démarches administratives, de bien-être et même de santé, jusqu’à prodiguer des… « avis médicaux » (nous y reviendrons aussi).

Environ 250 sites GenAI (soit le quart de ceux que nous avons identifiés) ne fournissent, a contrario, aucune mention légale permettant d’identifier leurs responsables, en violation de la loi. Dans certains cas, ils mentionnent même des informations fictives.

S’il est impossible de savoir combien de médias sont générés par des IA, ces 1 000 et quelques sites GenAI ne sont vraisemblablement que la partie émergée de l’iceberg de ces faussaires qui polluent le web en général, et Google Actualités en particulier.

Près de 50 % des sites GenAI étaient mentionnés dans Wikipédia

Plusieurs de ces sites apparaissent régulièrement sur Discover, l’IA de Google qui met en avant des articles d’actualité sur l’application Google mobile. À tel point qu’il arrive que deux des 15 - 20 articles qui y sont mis en avant chaque jour renvoient à des sites GenAI, contribuant à alimenter le robinet à pollution (nous y reviendrons).

Plus inquiétant : sur les 327 sites que nous avions partagés en novembre avec un administrateur et une contributrice émérite de Wikipédia, tous deux habitués à y détecter les « faux nez », 14 avaient déjà été identifiés lors des enquêtes menées à l’été 2022 sur les caviardages orchestrés par la société Avisa Partners sur l’encyclopédie collaborative, et 150 étaient mentionnés dans l’encyclopédie, soit plus de la moitié (cf la présentation de leur enquête, et leur analyse détaillée).

À lui seul, ce chiffre montre que les contenus GenAI ne sont pas forcément « bas de gamme », puisqu’ils parviennent à induire en erreur des contributeurs de Wikipédia. La vérification d’un échantillon aléatoire de contributions mentionnant ces sites GenAI a d’ailleurs permis de constater que les ajouts avaient, dans la majeure partie des cas, été faits « de bonne foi ».

Plus inquiétant : les deux fact-checkers de Wikipédia ont découvert que ces mentions étaient « souvent l’œuvre de contributeurs expérimentés, voire très expérimentés, y compris lorsqu’il s’agit de sites de très mauvaise qualité (pas d’auteurs, pas de mentions légales, traduction automatique manifeste, etc.) ».

Après avoir examiné chacun des 150 sites, ils avaient pu confirmer que 105 recouraient à l’IA pour la rédaction de textes, et 65 au plagiat (avec ou sans traduction, ou reformulation par IA). Les deux fact-checkers de l’encyclopédie en fournissent le compte-rendu détaillé, avec la liste des 148 sites examinés.

81 n’avaient en outre pas de mentions légales, ou des mentions mensongères, avec des auteurs fictifs. 51 avaient été « vampirisés » après le rachat de leur nom de domaine (et alors qu’ils constituaient jusque-là des sources acceptables), 18 ayant été utilisés pour effectuer des « modifications promotionnelles » sur l’encyclopédie, et 7 pour y faire du spam.

Nous leur avons depuis transmis à la liste des 1 066 sites GenAI identifiés à ce jour : 443 sont mentionnés comme « sources » et notes de bas de page sur Wikipédia, soit plus de 40 % du total. La liste de ces noms de domaine va désormais permettre aux contributeurs de l’encyclopédie de vérifier combien peuvent légitimement continuer à y figurer, ou pas (nous y reviendrons).

Une extension web pour identifier les sites (en tout ou partie) GenAI

Nous avons aussi découvert que 29 de ces 1 000 sites GenAI figurent dans le classement SimilarWeb des 1 000 sites d’éditeurs d’actualités et médias les plus visités en France. 17 figurent même dans le Top 500 et 3 dans le Top 100. 19 d’entre eux font aussi partie de la centaine de sites reposant en tout ou partie sur du plagiat (nous y reviendrons).

« La capacité de générer en masse de tels contenus est un désastre pour notre système informationnel », déplorait Ioana Manolescu, chercheuse en informatique à Inria et professeure à l’école Polytechnique, dans une enquête du Figaro consacrée à la « pollution numérique » constituée par la déferlante de contenus visuels (images et vidéos) GenAI :

« Un terme est en train de s’imposer pour les désigner : le « AI Slop », slop étant dans la langue anglaise un terme désignant la bouillie industrielle donnée aux cochons. »

« Le slop peut disparaître si les internautes expriment un fort rejet », soulignait-elle. Elle espérait que, à l’instar de ce qui s’est passé pour le spam, les acteurs de la Tech’ allaient travailler de concert pour développer des solutions de filtrage.

Afin d’aider les internautes à éviter ces pièges, Next a développé une extension web (pour Firefox et les navigateurs basés sur Chromium) affichant un message d’alerte sur les sites dont les articles nous semblent avoir, en tout ou partie, été générés par IA.

L’extension permet également à ses utilisateurs de nous envoyer, d’un simple clic, les sites GenAI, de désinformation ou frauduleux que ses utilisateurs auraient identifiés, pour que nous puissions « crowdsourcer » la mise à jour de notre base de données.

En revanche, nous ne rendons pas publique l’intégralité de la liste de ces sites, pas plus que celle des entreprises, pour plusieurs raisons. Nous ne voulons pas, d’une part, que cette base de données puisse aider ceux qui voudraient améliorer leurs générateurs d’articles automatisés, et qui se targuent de ne pas être reconnus comme GenAI (nous y reviendrons).

Nous ne voulons pas non plus faire de « name and shame » et mettre sur le même plan des auto-entrepreneurs SEO ayant créé quelques sites de façon opportuniste et les entreprises (y compris individuelles) en ayant créé plusieurs dizaines.

Nous allons toutefois, au fil des nombreux articles que nous allons publier dans les jours à venir au sujet de cette enquête, mentionner quelques sites et entreprises particulièrement emblématiques des problèmes que pose cette pollution.

Des IA pour remplacer les « travailleurs du clic » sous-payés

Tout a commencé lorsque, début 2024, nous avons reçu des « Google Alerts » nous renvoyant à des articles, répertoriés sur Google Actualités, mais émanant de médias inconnus. Ces articles cumulaient plusieurs artefacts et traits caractéristiques des contenus GenAI.

Suite au lancement de ChatGPT et de plusieurs autres IA génératives, nous avions consacré deux articles aux techniques, tactiques et procédures (TTP) pour identifier les textes et images générés par des IA, en mode « deepfakes » (ou hypertrucages).

Nous avons alors commencé à les recenser, cherchant à identifier leurs points communs pour les identifier plus facilement. Nous étions loin, à l’époque, d’imaginer que nous pourrions en découvrir plus de 1 000 rien qu’en français. Pas plus que notre recensement artisanal ne représenterait qu’une (toute petite ?) partie d’une véritable pollution médiatique.

La majorité de ces sites GenAI semble émaner de professionnels du SEO, qui rachètent des noms de domaine ayant expiré pour profiter de leur référencement et trafic entrant préexistants. Traditionnellement, ils s’en servent pour produire des articles à la chaîne, soit pour démultiplier le nombre de pages vues, et donc les revenus publicitaires générés par de la publicité, soit pour vendre des liens et articles sponsorisés qui ont pour principal objet d’améliorer le référencement des sites Web de leurs clients, plus que d’informer leurs lecteurs.

Nombre d’entre eux recouraient jusque-là à des « travailleurs du clic », recrutés dans des pays d’Afrique francophone ou à Madagascar, pour disposer d’une main-d’œuvre à bas coût.

Depuis le lancement de ChatGPT et de ses avatars, ils semblent de plus en plus les remplacer par des IA capables de générer, traduire ou plagier des dizaines, voire des centaines d’articles par jour, à un tarif bien moindre ou quasi-nul (nous y reviendrons).

Aucun d’entre eux ou presque ne précise qu’ils ont été générés et illustrés par des « générateurs de baratin », « perroquets stochastiques » qui se contentent d’estimer la probabilité qu’une suite de mots puisse constituer un contenu plausible en réponse à un « prompt ». Ces logiciels ne comprennent pas les écrits et dessins qu’ils « génèrent », ce qui explique qu’ils puissent « halluciner » (ou « confabuler ») des faits et informations.

Des risques de mésinformation et de contrefaçon « assistées par l’IA »

Les conclusions de la mission de l’Arcom sur l’IA, rendues publiques mi-octobre, qualifient ces « médias synthétiques » de médias « du 3ᵉ type », aux côtés des médias éditorialisés (essentiellement humains) et des médias algorithmiques (plateformes en ligne).

Or, déplorait l’Arcom, en confiant à des algorithmes la génération des contenus qu’ils diffusent, « de manière relativement désincarnée » (sans véritables auteurs ou journalistes) et « avec un contrôle humain faible voire inexistant », ces médias ne peuvent proposer qu’une « qualité diminuée par l’IA ». Ce qui soulève plusieurs questions :

  • « économiques : ces services peuvent venir phagocyter le marché historique des médias éditorialisés ;
  • qualitatives : la production de contenus à la volée, parfois sans véritable contrôle humain, augmente le risque de mésinformation ou de désinformation ;
  • juridiques : les médias synthétiques peuvent représenter une forme « contrefaçon assistée par l’IA », tout en profitant d’une limite du régime de responsabilité de jure. »

L’Arcom relevait à ce titre que si « la France et l’Europe ne sont pas un « far west » de l’IA », au vu des règlementations nationales ou internationales en place ou en cours d’adoption, tel n’est pas le cas de ces médias « synthétiques » :

« Les médias synthétiques s’approprient fréquemment les contenus produits par les médias traditionnels puis les reformatent ou les reformulent afin de les rediffuser auprès de leurs propres utilisateurs – à des fins lucratives voire malintentionnées. »

À compter d’août 2026, les contenus GenAI devront être identifiables

Le Règlement européen sur l’IA demande en outre que des « solutions techniques » soient mises en œuvre pour s’assurer du respect du droit d’auteur par les modèles d’IA. Il en va aussi de la traçabilité des contenus générés synthétiquement, à la fois pour permettre la rémunération des auteurs originaux, mais aussi pour assurer la vérification de l’information.

L’Arcom relevait également « un besoin d’harmonisation des différentes technologies proposées pour le suivi des contenus authentiques / synthétiques ». L’AI Act, entré en vigueur le 1ᵉʳ août 2024, mais applicable à partir du 2 août 2026, exige en effet que « les fournisseurs d’IA, y compris de systèmes d’IA à usage général, qui génèrent des contenus de synthèse de type audio, image, vidéo ou texte, veillent à ce que les sorties des systèmes d’IA soient marquées dans un format lisible par machine et identifiables comme ayant été générées ou manipulées par une IA » :

« Il convient d’exiger que les fournisseurs de ces systèmes intègrent des solutions techniques permettant le marquage dans un format lisible par machine et la détection du fait que les sorties ont été générées ou manipulées par un système d’IA, et non par un être humain. »

En outre, souligne l’AI Act, « il convient d’envisager une obligation d’information similaire en ce qui concerne le texte généré ou manipulé par l’IA dans la mesure où celui-ci est publié dans le but d’informer le public sur des questions d’intérêt public, à moins que le contenu généré par l’IA n’ait fait l’objet d’un processus d’examen humain ou de contrôle éditorial et qu’une personne physique ou morale assume la responsabilité éditoriale pour la publication du contenu ».

La mission proposait dès lors que l’Arcom entame des travaux complémentaires dans le but de :

  • mieux mesurer l’impact potentiel des médias synthétiques, notamment sur le plan économique et en termes de revenus publicitaires ;
  • étudier au travers d’une analyse pluridisciplinaire comment les textes en vigueur s’appliquent à ces nouveaux services et évaluer les éventuelles limites des régimes de responsabilités qui s’imposent à eux.

Google ne distingue pas les articles journalistiques des contenus GenAI

Le problème avait déjà été pointé du doigt, en janvier 2024, par nos confrères 404 Media dans un article intitulé « Google News favorise les articles bidons générés par l’IA ».

« Lorsque nous classons un contenu, nous nous concentrons sur sa qualité et non sur la manière dont il a été produit », avait rétorqué un porte-parole de Google à 404 Media. L’entreprise ajoutait que ses systèmes de classement Google News « visent à récompenser le contenu original qui démontre des éléments tels que l’expertise et la fiabilité ».

En février 2023, Google avait en effet annoncé vouloir « récompenser les contenus de haute qualité, quelle que soit la façon dont ils sont produits », et donc même s’ils étaient GenAI.

Le moteur de recherche y rappelait que « l’automatisation est utilisée depuis longtemps pour générer des contenus utiles comme les résultats sportifs, les prévisions météorologiques et les transcriptions ». Il estimait en outre que « l’IA peut permettre de développer de nouveaux niveaux d’expression et de créativité et d’aider les utilisateurs à créer des contenus de qualité pour le Web ».

Google y fournissait même des « conseils pour les créateurs qui envisagent d’utiliser la génération par IA ». « Quelle que soit la façon dont le contenu est créé, les personnes souhaitant réussir sur la recherche Google doivent chercher à produire des contenus originaux, de haute qualité et people-first, présentant les qualités de l’E-E-A-T », indiquait l’entreprise.

Cet acronyme désigne « l’expertise, l’expérience, la légitimité et la fiabilité ». Des valeurs cardinales mises en avant par le moteur de recherche pour y être bien référencé, et que cherchent précisément à déjouer les professionnels du « black hat SEO », notamment pour parvenir à y indexer leurs sites GenAI.

En réponse à la question « Dois-je ajouter des mentions concernant l’IA ou l’automatisation à mon contenu ? », la FAQ indique que « les mentions liées à l’IA ou à l’automatisation sont utiles pour les contenus pour lesquels quelqu’un pourrait se demander comment ce contenu a été créé ». Elle conseille d’en « ajouter là où le lecteur pourrait raisonnablement s’y attendre ». Ce que ne font quasiment aucun des 1 000 sites GenAI que nous avons identifiés.

« Le contenu généré automatiquement et produit principalement à des fins de classement est considéré comme du spam, et nous prenons les mesures qui s’imposent en vertu de nos règles », avait pourtant précisé le porte-parole de Google à 404 Media.

Les réponses de Google

Contacté mi-octobre, et relancé depuis (plusieurs fois), Google a fini par répondre à CheckNews… fin janvier. Nous rétorquant que « plusieurs sites que vous nous avez partagés n’apparaissent plus dans Google Actualités » (sans préciser lesquels), le service de presse du moteur de recherche rappelle que les éditeurs peuvent y figurer s’ils se conforment aux règles de Google Actualités. Ce qui inclut « la transparence sur la propriété du site et l’identité des auteurs ». En outre, « des mesures sont prises lorsque ces politiques sont enfreintes, pouvant aller jusqu’au retrait des sites ».

Arguant du fait que « les internautes qui consultent votre site souhaitent savoir qui écrit et publie vos contenus », ces règles exigent que les sources d’actualités sur Google comportent notamment :

  • « Des dates et des signatures claires.
  • Des informations sur les auteurs, la publication et l’éditeur.
  • Des informations sur l’entreprise ou le réseau à l’origine de la source.
  • Des coordonnées. »

Or, si les éditeurs de plus des trois quarts des sites GenAI identifiés fournissent effectivement les noms et coordonnées de leurs responsables légaux, la quasi-totalité d’entre eux mentent, en attribuant à des auteurs fictifs les articles qu’ils publient. Quitte, pour certains, à les doter de vrais-faux profils sur LinkedIn ou X.com.

Google se targue en outre de disposer de « politiques robustes en matière de spam, régulièrement mises à jour pour mieux lutter contre les nouvelles pratiques abusives qui conduisent à l’apparition de contenus non originaux et de faible qualité dans le moteur de recherche » :

« Les systèmes de Google permettent de maintenir le moteur de recherche exempte de spam à 99 %, et Google continue de les affiner et de les améliorer au fur et à mesure que le Web évolue. »

Google nous explique aussi avoir « investi de façon conséquente dans des équipes d’experts et des technologies de pointe pour prévenir les abus et appliquer nos règles » :

« Pour vous donner une idée de l’ampleur, en 2023, nous avons bloqué ou restreint la diffusion d’annonces sur plus de 2,1 milliards de pages d’éditeurs, contre 1,5 milliard de pages en 2022, et nous avons pris des mesures d’application au niveau du site sur plus de 395 000 sites d’éditeurs, contre 143 000 en 2022. »

Google nous précise enfin avoir lancé, « plus tôt cette année », une « nouvelle politique » proscrivant l’ « utilisation abusive de contenus à grande échelle », à savoir le fait de « générer de grandes quantités de contenus non originaux qui présentent peu ou pas d’intérêt pour les utilisateurs […] dans le but principal de manipuler le classement dans la recherche Google et non d’aider les utilisateurs ».

Sont notamment visés l’utilisation d’outils d’IA générative (ou outils similaires) et la création de plusieurs sites « dans le but de masquer la nature des contenus à grande échelle ». Nous avons pourtant identifié plus de 50 éditeurs administrant (au moins) cinq sites GenAI, et trois plus de 40 (au moins), plusieurs d’entre eux apparaissant régulièrement sur Discover.

La responsabilité de Google dans les dérives de la presse sur Internet

Dans un billet intitulé « Trop c’est trop ! Marre de ces sites 100% fake, 100% IA » publié sur LinkedIn, le journaliste Mathieu Cartier déplore ainsi d’avoir découvert, via Google Discover, qu’un site avait copié-collé l’une des photos publiées sur son site transitionvelo.com, sans autorisation. L’auteur de l’article plagié, « un certain Emile Faucher, « journaliste captivé par l’ingéniosité entrepreneuriale et les solutions innovantes » », s’y présente comme « diplômé d’une grande école de journalisme à Lille ».

Mathieu Cartier a d’abord cru avoir affaire à l’un de « ces sites qui n’ont pour objectif que de générer du clic et de l’affichage publicitaire avec des contenus volés à d’autres et des titres putaclics ». Il a depuis compris que le site avait probablement été généré par IA (il fait effectivement partie des 1 000 sites GenAI de notre base de données). « Quelle tristesse de voir que ce genre de sites existent et que Google, aveugle, leur donne suffisamment d’intérêt pour les mettre en avant dans sa section Discover », déplore Mathieu Cartier :

« On ne peut plus faire comme si de rien n’était et il faut pointer du doigt la responsabilité de Google dans les dérives de la presse sur Internet, poussant jusqu’à des sites réputés, que l’on aime lire, qui emploient des journalistes talentueux, tomber dans le piège du putaclic parce qu’une partie de plus en plus grande de leur audience dépend de Discover. »

Des sites qui, pour lui, « n’auraient (peut-être) jamais été aussi loin dans ces habitudes et lignes éditoriales si de faux sites sans journalistes ni contenus propres, et surtout sans aucune image à construire ou sauver, n’avaient été ainsi encouragés » :

« Le pire ? Penser que ce genre de stratégies puisse être rentables. Se dire que des sites construits sur le travail des autres (eh oui, chatGPT n’invente rien qui n’ait déjà été publié ailleurs) puisse avoir un intérêt économique, quand des gens qui investissent compétences, temps, sueur et argent pour créer des contenus pertinents, enrichis, incarnés peuvent avoir du mal à exister dans la jungle d’Internet. »

Il n’en estime pas moins qu’il faut « garder espoir », « alerter sur ces pratiques » et « expliquer aux jeunes l’importance de la presse, du journalisme, des faits, de la vérité et du débat argumenté, quand bien même ils font eux-mêmes faire leurs devoirs à leurs smartphones » :

« Le combat est mal engagé mais il n’est pas perdu, alors – passé le coup de colère ne nous résignons pas. »

Nous ne saurions mieux dire, vu l’ampleur de ce que nous avons découvert lors de cette enquête au long cours. Dans les jours à venir, nous avons prévu de revenir plus particulièrement sur :

  • les sites GenAI reposant sur du plagiat, mais néanmoins indexés dans Google Actualités/Discover,
  • les sites GenAI plagiant et parasitant la presse quotidienne régionale (PQR),
  • les sites GenAI prodiguant des « conseils » et « recommandations » de santé,
  • les « hallucinations » et « infox » relayées par ces articles GenAI,
  • les dizaines de générateurs d’articles GenAI, optimisés pour Google Actualités/Discover, développés et commercialisés par des professionnels du SEO, qui se vantent de ne pas être identifiables par les détecteurs de contenus GenAI,
  • le fait que Google (en anglais) a de son côté été capable de désindexer 1 500 sites GenAI.

Commentaires (64)

votre avatar
La terre est plate :glasses:
votre avatar
Superbe article. Mais il n'y a que chez moi où le lien vers l'extension navigateur de Next renvoi vers une 404 ?
votre avatar
Les deux autres articles seront mis en ligne assez rapidement (teasing... ;)
votre avatar
Si tu es sur Firefox, tu peux la trouver sur le store d'extensions ici :

https://addons.mozilla.org/fr/firefox/addon/alerte-sur-les-sites-genai/
votre avatar
La liste !!!
votre avatar
Merci pour cet article et cette extension. Oui, j'adorerai avoir une liste afin de mettre ces sites dans mon fichier /etc/hosts.
votre avatar
Il faut lire l'article : "En revanche, nous ne rendons pas publique l'intégralité de la liste de ces sites, pas plus que celle des entreprises, pour plusieurs raisons. Nous ne voulons pas, d'une part, que cette base de données puisse aider ceux qui voudraient améliorer leurs générateurs d'articles automatisés, et qui se targuent de ne pas être reconnus comme GenAI (nous y reviendrons)."
votre avatar
J'ai très bien lu ;) Ca n'enlève rien à mon interrogation.
votre avatar
Vu qu'ils expliquent pourquoi ils ne divulgueront pas la liste je vois pas bien à quoi ça sert de la demander ?
votre avatar
"Quand sur le site du monde on voit des pubs ..."
... c'est qu'on a mal éduqué son µBlock.
:humour:
votre avatar
Je compatis... maintenant, je suis à la retraite
:smack:
votre avatar
C'est (de mon point de vue pas tout à fait neutre sur le sujet) une remarque tout à fait pertinente. Plus on nivelle par le bas la qualité et plus c'est facile de "rattraper" les standards...
votre avatar
Combien de guides d'achats on publie cette semaine ? Il faut contenter nos amis lecteurs la carte bleue à la main !
votre avatar
Ok donc quitte à faire de l'analyse de cause racine, ne faudrait-il pas remonter un peu plus haut ?

Dans le désordre (à chacun de se faire son analyse de causalité et les liens systémiques entre ces trucs) :

  • La presse est dépendante de la pub

  • la presse est détenue par des milliardaires

  • La presse est délaissée par la population

  • La population ne considère plus comme normal de faire un effort intellectuel, temporel, financier pour s'informer

  • La population n'a plus le loisir ni les moyens de s'informer correctement

  • La classe politique utilise la presse comme arme de désinformation

  • La presse des miliardaires et la classe politique censurent/invibilisent/ridiculisent ce qui peut les menacer dans leur entre-soi

  • La population ne croit plus en la presse et se tourne vers ce qui maximise l'engagement au détriment de la véracité



Next, vous pouvez faire un petit graphe de causalité selon votre point de vue ? (oui c'est très méta comme sujet donc c'est peut-être pas votre tasse de thé, mais c'est très lié à l'article en question) Surtout après ce super article.
votre avatar
Juste pour éclairer le concept, qu'est-ce que la population ? De la même façon, la classe politique est composée de qui ?
Je ne pense pas qu'il faille se considérer à part.
votre avatar
C'est le principe des classes sociales. Bien entendu que ce que j'ai écrit rapidement est très réducteur.
votre avatar
Alors ça, alors ça.... ALORS CA.... C'est un pubip d'article comme je les aime et qui ne me fait pas regretter mon abonnement Next. Loin de là !

1000 mots de saurons être suffisant pour vous féliciter pour cette enquête au long court.

En suggestion, je vous invite à mettre également le lien de votre extension en bas de l'article (lien d'utilité publique) pour pouvoir le retrouver facilement. En plus du lien dans le texte, cela va sans dire.

Peut être un jour, grâce à l'IA (et surtout sa "pollution SEO"), reviendront nous à l'époque presque bénie où les moteurs de recherche n'existaient pas (enfin pas comme aujourd'hui), et où il y avait des catalogues de sites, classés et triés par des humains pour des humains (comme DMOZ, qui existe toujours !)
votre avatar
Qui aurait pu prédire ? …
Ça me fait rire (jaune) de lire que l’IA est utilisée pour chercher à faire encore plus de fric facilement. Les promoteurs de l’IA mettent souvent en avant les progrès attendus en médecine (tiens, c’était aussi l’argument pour la 5G). Mais ce qu’on voit massivement, c’est des photos ou des vidéos truquées, des articles bidons, des devoirs d’élèves.
Monde de merde …
votre avatar
votre avatar
:vomi1:
:censored:
:pleure:
votre avatar
Les charlatans ont fait un tour complet ! SEO -> Cloud -> Quantique -> Blockchain -> IA -> IA pour SEO.
Ça leur a pris 15 ans. Le vrai problème c'est que quand ils passent à une nouvelle connerie ils arrêtent pas complètement celles d'avant, du coup ça fait juste plus de bêtise à gérer. L'expression "the shit hits the fan" prend de plus en plus de sens.
votre avatar
merci pour cette enquète qui ne va malheureusement que rester confidentiel.
C'est incroyable l'ingéniosité humaine pour faire du fric en faisant de la m...
votre avatar
Super série, chouette boulot, très content (une fois de plus) de mon abonnement!
Continuez comme ça :)
votre avatar
Est-ce qu'une version de l'extension web pour Firefox/Android est prévue? Parce que c'est dans mon train quotidien que je consomme le plus les news.

Et merci pour cette enquête.
votre avatar
Je vais regarder cela. Si c'est possible simplement oui je m’en occupe.
Je vais aussi publier le code, ca permettrait à tout un chacun de proposer des évolutions/améliorations :)
votre avatar
le fait que Google (en anglais) a de son côté été capable de désindexer 1 500 sites GenAI.
Ah, oui, ça fait pas beaucoup ._.'
votre avatar
Merci pour cette étude aussi fascinante qu'inquiétante.

Je ne peux pas m'empêcher de penser à la fabrique du consentement...

C'est clairement un outil providentiel pour un tel projet de manipulation des consciences...
votre avatar
Pas besoin d'IA même si ça aide ces derniers temps. On dit surtout merci aux médias d'infos en continus (TV, web, etc...).
votre avatar
Article passionnant merci.

Je me suis même mis à faire qq recherches sur la base de cet article et ai vite trouvé des points commun à cette galaxie de site merdiques (CMS OpenCart, proxy CloufFlare), j'ai trouvé une boite FR avec plusieurs centaines de milliers d'euros de CA...
votre avatar
On est preneur de toutes les infos qui peuvent permettre de mieux comprendre le phénomène ! ;-)
votre avatar
Bah... Tu l'as déjà repéré car c'est en me basant sur les infos de l'article que j'ai trouvé https://www.pappers.fr/entreprise/ia-group-499376994

@AlexandreLaurent modère ce post si le lien pose un pb.
votre avatar
C'est vrai qu'il y a pas mal d'aspect "techniques" que l'on peut scruter pour voir. Du sitemap au CMS en passant par le robots.txt, les enregistrements DNS, etc. il y a pas mal de paramètres que l'on pourrait prendre en compte, et donner tout ça à une petite moulinette pour essayer d'en ressortir des tendances.

Je n'ose pas dire "utiliser de l'IA" pour apprendre à classer les sites à partir de ces paramètres ^^
votre avatar
Un seul mot : Excellent !

Google a joué avec le feu, ils sont les grands responsables de cette pollution du Web.

Dans un autre genre, il y a Microsoft avec MSN ce machin 100% putaclic qui propose des articles sponsorisés vers des sites qui plagient des sites comme celui du Figaro (un exemple ici) avec de faux articles (La Banque de France engage une procédure judiciaire contre Adriana Karembeu). Je ne comprends pas que Le Figaro n'est pas encore porté plainte contre Microsoft !
votre avatar
Merci ! Cela dit, le lien est cassé... et je ne retrouve pas le ou les articles auxquels vous faites référence.
votre avatar
Le lien fonctionne avec moi. Comme ce lien est à rallonge avec des tas de paramètres il est possible qu'il contienne un identifiant (zpbid peut être) qui fasse qu'il ne fonctionne que pour moi. Et si on enlève des paramètres il ne fonctionne plus.

Pour le retrouver il faut aller sur MSN et chercher le mot "senior" (un encart avec une photo qui ressemble à Adriana Karembeu et un titre "Les seniors français peuvent maintenant gagner un revenu en ligne."), il faut peut être recharger plusieurs fois pour que Microsoft le balance dans sa page.

Sinon j'ai des captures d'écran.

Et en ce moment c'est Adriana le pot de miel, mais d'autres personnalités ont été utilisées et d'autres sites plagiés (Le Monde de mémoire).
votre avatar
J'ai retrouvé l'encart sur MSN sous une autre forme avec le titre "Ce système bénéficie aux Français" (la photographie d'Adriana n'est plus le pot de miel).

Le lien fonctionne sans paramètre : https://gradecode.com/fr/ (j'espère qu'il fonctionne pour vous).

Le contenu du lien est identique au précédent, un article fallacieux plagiant le site du Figaro, mais là le domaine de l'URL change.

Il y a probablement une grosse arnaque derrière, mais Microsoft dira : "on n'y est pour rien" !

MAJ :
Les liens dans l'article bidon ne fonctionne pas, il faut au moins un paramètre : https://gradecode.com/fr/?contentAdId=189640417
votre avatar
votre avatar
extrêmement intéressant merci :)
première réflexion qui me vient : et si on n'utilise pas Google ? (comme moteur de recherche) Est-ce que l'on évite ces faux sites ? Question subsidiaire : quel moteur de recherche le permettrait ?
votre avatar
Le problème, c'est qu'il n'y a pas de meilleur moteur de recherche que Google à ce jour...
votre avatar
Si ! Qwant !













Non je déconne ^^
votre avatar
Il y a pas mal d'alternatives qui marchent pas mal (duckduckgo par exemple). Si on n'est pas capable d'accepter une petite perte de qualité (ou ce qu'on perçoit comme de la qualité) pour prendre un peu d'indépendance par rapport aux GAFAM, ce n'est même pas la peine de lutter contre, c'est perdu d'avance.
votre avatar
Difficile de qualifier Duckduckgo comme alternative, sachant que c'est un métamoteur utilisant Google comme l'une des sources...
votre avatar
Mais pas que, et sans le tracking.
votre avatar
On parle principalement de Google parce que c'est de loin le numéro un, mais le phénomène concerne tous les moteurs de recherche. Personne sur le marché n'a, à ma connaissance, mis en place de filtre efficace contre les contenus et sites GenIA. Bing en tout cas ne l'a pas fait.

Et comme la plupart des moteurs de recherche "éthiques" s'appuient en grande partie soit sur l'index de Google soit sur celui de Bing... rien n'est fait à ce stade.

Qwant aurait à mon sens une carte à jouer en la matière puisqu'ils sont censés travailler à la création d'un nouvel index, mais j'ai peur que leur priorité soit plutôt d'intégrer de l'IA dans l'affichage de leurs résultats et surtout de générer du chiffre d'affaires...
votre avatar
Je ne sais pas s'il le fait pour la recherche simple (je ne crois pas) mais Kagi indique dans la recherche d'images par une petite pastille "IA" les images potentiellement générées par IA.
votre avatar
Wow ! Ça c'est de l'enquête ! bravo pour ce travail :inpactitude:

Et oui, c'est affligeant :craint:
votre avatar
Le Point relaie l'enquête.
votre avatar
C'est rigolo, Le point, avec toutes ses pubs pourries qui inondent ses articles. :un:
votre avatar
J'ai lu hier un article d'avril 2024 à propos de la dégradation de la pertinence des résultats de Google: https://www.wheresyoured.at/the-men-who-killed-google/
Ça renforce l'idée qu'il est dans l'intérêt de Google Ads, que les résultats des recherches ne soient pas trop bons (forçant les utilisateurs à faire plus de recherches, dont à voir plus de publicités)...
votre avatar
Merci du partage, je ne connaissais pas ce blog qui vaut le détour, à lire par exemple : https://www.wheresyoured.at/sam-altman-is-full-of-shit/
votre avatar
« Les systèmes de Google permettent de maintenir le moteur de recherche exempte de spam à 99 %, et Google continue de les affiner et de les améliorer au fur et à mesure que le Web évolue. »

Je me suis étouffé en lisant ça ! il faut aller à la page 2 ou 3 avant de commencer à avoir quelques résultats utiles !
Si il n'y avait qu'1% de spam il est largement priorisé sur le reste !
votre avatar
:yaisse: Travail et outil d'utilité publique, mais pas que, la preuve : je viens de m'abonner grâce à lui ! :mrgreen:
votre avatar
Rien à voir avec les sites d'informations, mais Youtube se retrouve de plus en plus pollué par des chaines full IA...
Par exemple 1 2 3 4 5

:vomi2:
votre avatar
Vous êtes sûrs de votre coup à marquer bugs.winehq.org comme étant «généré par IA» ?
votre avatar
le site fait partie des quelques "faux positifs" qu'on va mettre en liste blanche, on cherche aussi l'origine du bug.
votre avatar
J'ai du mal à comprendre la réponse.
L'extension dit :
D’après les constatations (humaines) de Next.ink, des articles de ce site semblent avoir été (en tout ou partie) générés par IA
Si la constatation est humaine, je veux bien que l'humain ait raté que le site était le bugtracker de wine et donc pas généré par IA et encore, winehq.org est quand même connu.
Mais pourquoi le mettre en liste blanche alors qu'il suffit de le supprimer de la liste noire.
La seule raison que je vois qui justifierait ce choix de mise en liste blanche est que la liste noire est générée automatiquement et donc pas par un ou des humains.
votre avatar
Je me pose aussi la question. Il y a quelques jours j'ai signalé parcs.canada.ca directement à Sébastien.

Corrigé depuis
votre avatar
C'est à cause de l'algo utilisé derrière pour vérifier la présence sur la liste des sites générés par IA.

En gros, c'est un filtre de Bloom. Ce filtre permet de savoir si un élément X (ici un nom de domaine) appartient à un ensemble A (ici, les noms de domaines de site générés par IA) et présente les caractéristiques suivantes :

  • les éléments de A ne sont pas divulgués

  • un élément X non trouvé dans A indique avec certitude que X n'est pas dans A

  • un élément X trouvé dans A indique avec une certaine probabilité la présence de X dans A (mais il peut y avoir des faux positifs).



Le taux de faux positif dépend de la taille du filtre (qui est "indépendant" du nombre d'éléments dans A, ou, pour utiliser des gros mots mathématiques, de la cardinalité de A).

De part le fonctionnement du filtre de Bloom, retirer un élément de la liste n'est pas possible, surtout s'il s'agit d'un faux positif ! Il est donc nécessaire d'avoir une liste blanche pour cela.

Au passage, je rappelle juste que le choix d'un filtre de Bloom est pertinent ici (le fait que les éléments de A ne sont pas connus), dans la mesure où l'équipe s'est exprimée sur son souhait de ne pas divulguer la liste des domaines présents dans la liste noire.
votre avatar
Merci de l'explication. Je ne connaissais pas.

En fait, ce n'est pas un bug comme le disait JMM mais une caractéristique de ce type de filtre.
votre avatar
Les "faux positifs" sont précisément placés dans la liste blanche parce qu'ils ne figurent pas dans la liste des sites GenAI, comme l'explique @fdorin .

[Enquête] Plus de 1 000 médias en français, générés par IA, polluent le web (et Google)

  • Une « forme hybride de plagiat » facilitée, voire générée par IA

  • De 100 à plus de 1 000 sites GenAI en quelques mois seulement

  • Le SEO est-il mort ?

  • Une centaine de pros du SEO responsables des 3/4 de ces 1 000 sites GenAI

  • Près de 50 % des sites GenAI étaient mentionnés dans Wikipédia

  • Une extension web pour identifier les sites (en tout ou partie) GenAI

  • Des IA pour remplacer les « travailleurs du clic » sous-payés

  • Des risques de mésinformation et de contrefaçon « assistées par l’IA »

  • À compter d'août 2026, les contenus GenAI devront être identifiables

  • Google ne distingue pas les articles journalistiques des contenus GenAI

  • Les réponses de Google

  • La responsabilité de Google dans les dérives de la presse sur Internet