[Édito] GenAI, arme de désinformation massive

Là où y'a de la GenIA pas de plaisir

Illustration : Flock

Alexandre Laurent

Le 06 février 2025 à 12h23

Plus de mille sites découverts en quelques mois, et sans doute beaucoup d’autres, encore dissimulés ou en gestation. L’enquête au long cours publiée cette semaine par Next révèle que le phénomène des contenus bas de gamme générés par IA a déjà pris des proportions significatives sur le Web francophone. Si beaucoup de ces sites automatisés grâce à l’intelligence artificielle ne servent que des intérêts bassement mercantiles, leur prolifération soulève de réelles questions économiques, sociales et politiques.

[Édito] GenAI, arme de désinformation massive

Là où y'a de la GenIA pas de plaisir

Illustration : Flock

Alexandre Laurent

Le 06 février 2025 à 12h23

10 min

Au départ, il y avait quelques articles trop mal écrits pour être honnêtes qui passaient de journaliste en journaliste : « Haha, regarde ces c*ns, ils n’ont même pas pensé à enlever les éléments de prise en compte du prompt ». Début 2025, la blague a depuis longtemps viré au comique de répétition. Du genre bien lourd, le comique.

D’après le recensement d’une envergure sans précédent opéré sous la houlette de Jean-Marc Manach, journaliste à Next, plus de 1 000 sites, rédigés en français et se présentant, de façon plus ou moins habile comme des médias, trustent les pages de résultat de Google, à l’aide de contenus partiellement ou totalement générés par IA. De là, ils envahissent les conversations sur les réseaux sociaux, nos boîtes e-mail, et finissent parfois par atterrir parmi les sources attestant de la véracité des informations publiées sur la célèbre encyclopédie collaborative Wikipédia.

Il y a l’outil, et l’usage qui en est fait

Après tout, pourquoi pas ? Depuis la sortie de ChatGPT, en novembre 2022, la plupart des rédactions s’interrogent – avec plus ou moins de bonne volonté – sur la façon d’intégrer les possibilités offertes par l’intelligence artificielle générative dans leurs pratiques. Toutes celles qui communiquent publiquement sur leurs travaux convergent vers une même approche : l’utilisation de l’IA n’est pas exclue, et peut même se révéler souhaitable, dès lors qu’elle est encadrée par un humain, et que ses productions sont supervisées (comme chez les développeurs d’ailleurs, ainsi que nous l’expliquait Marie-Alice Blette). Chez Next aussi, on l’utilise (notre comparateur d’offres d‘électricité par exemple) : c’est une bonne aide, mais ce n’est pas elle qui est aux commandes.

L’armada de sites générés par IA dont il est question dans notre enquête ne répond pas à ce prérequis. Tous ces sites ont précisément été détectés parce que certains de leurs articles présentent des « artefacts » qui témoignent d’une génération automatisée sans réelle supervision : hallucinations flagrantes, sites capables de publier plusieurs centaines de nouveaux articles par jour, citations déformées, contresens manifestes, etc.

Dans la suite de notre enquête, nous vous montrerons qu’il suffit d’une poignée d’heures et de quelques lignes de code pour créer un site GenAI. Nous verrons aussi comment beaucoup de ces sites servent les intérêts de professionnels du référencement, qui les utilisent pour créer des univers sémantiques et des renvois de liens, éventuellement vendus à des tiers, pour doper la visibilité de business bien réels cette fois.

Souvent, il suffit de quelques clés de lecture pour détecter un site manifestement alimenté par une IA sans supervision. Mais il arrive aussi que l’exercice se révèle plus délicat. Par exemple, quand le site en question se dissimule derrière une marque média qui a eu, un temps, pignon sur rue. Ou quand les contenus produits à peu de frais s’intercalent entre des articles éditoriaux écrits par des humains. Le milieu des « éditeurs assistés par IA » monte d’ailleurs rapidement en compétences, notamment parce qu’il faut prévenir les éventuels outils de détection que pourrait mettre en place Google…

Après tout, pourquoi pas ? Des éditeurs ou des agences Web bricolent des sites grâce aux outils du moment, ils automatisaient déjà la production de contenus bien avant ChatGPT et ça leur permet de gagner leur vie : tant mieux pour eux ?

« Well, that escalated quickly »

Le problème, c’est que ces contenus générés par IA ne s’embarrassent souvent ni de véracité, ni de légalité. Plusieurs des sites identifiés dans le cadre de notre enquête plagient ainsi, de façon peu discrète, les médias qui leur servent de source. L’automatisation leur permet de le faire à une échelle industrielle, à peu de frais.

Dans une tribune parue jeudi, les grandes organisations professionnelles du monde des médias appellent le gouvernement à profiter du sommet sur l’IA, organisé cette semaine à Paris, pour « garantir la fiabilité de l’information à l’heure de l’IA Générative ». Ils demandent pour ce faire que les grands acteurs de l’IA respectent le choix des éditeurs quant à l’utilisation de leurs contenus, que la traçabilité des sources soit garantie et que les droits d’exploitation des contenus soient acquittés.

En attendant que les grands noms de l’IA acceptent, ou non, de se plier à d’éventuelles règles à ce sujet, il existe un préjudice plus immédiat, qui nous affecte tous : la pollution.

Elle attaque déjà directement les médias. Outre l’utilisation indue de leur propriété intellectuelle, ceux-ci courent ainsi le risque de voir une partie de leurs audiences, et donc de leur modèle économique, phagocytée par ces nouveaux venus automatisés.

Sur certains sujets, elle menace aussi les individus. Souvenez-vous de l’IA qui suggérait de mettre de la colle sur une pizza ou dans un sandwich. Imaginez maintenant que des sites, dédiés à la santé par exemple, multiplient les conseils à plus ou moins bon escient sur la base d’informations mal digérées, uniquement parce que la niche se révèle lucrative sur le plan publicitaire ?

Cette pollution fait enfin peser un risque social et sociétal, dont l’existence a été avérée à de multiples reprises ces derniers mois : la capacité à produire rapidement, massivement et à peu de frais des sites ayant l’apparence de médias légitimes a déjà ouvert la voie à des campagnes de manipulation de l’opinion.

Encore une fois, cette menace n’est pas nouvelle. Next a chroniqué à plusieurs reprises les opérations de désinformation ou les tentatives d’ingérence dans une politique étrangère soutenues, notamment, par des mécaniques de production automatisée de contenus ou d’engagement sur les réseaux sociaux (et on ne parle pas de la procédure bâillon intentée par Avisa Partners…).

Elle revêt cependant une importance cruciale en ces temps où l’actualité se révèle particulièrement outrancière. Impossible ici de ne pas faire allusion aux déclarations récentes de Donald Trump qui, en seulement quelques jours, a manifesté sa volonté de prendre le contrôle du détroit de Panama, du Groenland, du Canada et de la bande de Gaza. Dans le monde entier, les médias crient au délire, et soupèsent pourtant très sérieusement la faisabilité des différents projets. La bande de Gaza en nouvelle Riviera du Moyen-Orient, l’hypothèse vous parait-elle plausible ?

Ce n’est peut-être pas la bonne question à se poser, comme nous le rappelle un certain Steve Bannon, figure emblématique des milieux conservateurs populistes nationaux et ancien « conseiller stratégique » de Donald Trump. Le 31 janvier dernier, il se goberge, au micro du New York Times. Pour lui, les discours récents de Trump sont la mise en pratique, enfin aboutie, du mode opératoire qu’il préconisait au président des États-Unis lors de son premier mandat : « The real opposition is the media. And the way to deal with them is to flood the zone with shit ».

En termes fleuris, il expliquait alors à Trump qu’il ne fallait pas redouter le camp démocrate, mais les médias, et que le meilleur moyen de se débarrasser de ces derniers était – pardonnez ma vulgarité, qui n’est que le reflet de celle de Bannon – de les inonder de merde… Autrement dit, de générer du bruit. Tellement de bruit que l’on finit par créer un phénomène d’assourdissement ou de sidération permettant soit d’occulter les vrais problèmes, soit de concentrer l’attention de ses adversaires sur les sujets de son choix.

Quel plus bel outil que l’IA pour nourrir cet objectif ? On assiste aujourd’hui à un croisement entre performances des outils grand public, accessibilité financière et tensions politiques exacerbées qui laisse augurer d’innombrables usages malveillants.

Éduquer, informer, créer de la confiance

Signer avec OpenAI pour toucher des droits voisins sur l’entraînement des grands modèles de langage, c’est bien, mais ça n’empêchera pas une agence Web, une agence d’influence ou un simple geek dans son coin de copier-coller des articles, ou un flux RSS, et de l’injecter dans une série de grands modèles de langage pour obtenir une infinité de réécritures de moins en moins détectables, et éventuellement orientées.

On entend depuis des années que les médias doivent cultiver leur image de marque, et le lien direct avec leur lectorat, pour limiter la dépendance aux moteurs de recherche ou aux réseaux sociaux, et ainsi tenter de préserver leur modèle économique. La GenAI souligne et renforce encore le caractère impérieux de cette relation de confiance entre médias et lecteurs, parce qu’elle permet d’amplifier, à peu de frais et à grande échelle, le bruit ambiant. J’évoque l’argument économique, parce qu’il fait généralement mouche assez facilement, mais l’enjeu dépasse de loin la question des équilibres financiers : il ramène à la place que doivent occuper les médias d’information dans la société.

Quand Jean-Marc a débuté son enquête, il y a près d’un an, il aurait été facile de publier rapidement un petit tour d’horizon témoignant d’un épiphénomène. Pourtant, il a soutenu, mordicus, que le sujet méritait d’aller plus en profondeur, convaincu qu’il ne s’agissait pas que de « cinq gus dans un garage », comme disait une ancienne ministre. En dépit de notre modeste équipe (six journalistes, un dessinateur), Next a fait le choix de suivre son intuition, parce que nous pressentions que cette enquête allait se révéler nécessaire.

Le Sommet qui s’ouvre à Paris dira si et comment politiques et industriels de l’IA parviennent à converger vers un cadre commun. En attendant et sans parti pris, il nous semble important d’informer et de sensibiliser le plus largement possible, parce que le sujet touche à des valeurs qui nous sont chères. C’est la raison pour laquelle nous avons souhaité donner une dimension collaborative à cette enquête, en partageant nos trouvailles avec d’autres médias, dont Libération. C’est aussi la raison pour laquelle nous avons développé une extension dédiée, dont on espère qu’elle aidera le grand public à prendre conscience de la nécessité de systématiquement vérifier la qualité de la source d’une information.

C’est enfin la raison pour laquelle il faut soutenir et encourager le journalisme de qualité, celui qui prend le temps d’extraire le signifiant du bruit ambiant. Vous abonner à Next, c’est nous permettre de poursuivre cet objectif.

Commentaires (25)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

refuznik Premium

Le 06/02/2025 à 12h34

Et encore vous vous êtes limité aux articles et sites d'info. en français, sur les sites en langues anglo-saxonnes c'est une horreur. Je n'arrive pas à comprendre la politique de certains portails agrégateurs d'articles (et pas simplement d'infos) vu que le commun des mortels vont les boycotter par épuisement.

white_tentacle Premium

Le 06/02/2025 à 13h02

Le problème est qu’une fois que tu es sur le site, c’est trop tard, même si tu t’en rends compte. Le clicomètre est là, les pubs chargées, et le bénef dans la poche de l’éditeur.

À un moment, il va falloir admettre que la source du problème, c’est la pub, et agir contre. Pas de revenus, pas d’incitation à produire de la merde.

Bourrique

Le 06/02/2025 à 14h48

À un moment, il va falloir admettre que la source du problème, c’est la pub, et agir contre. Pas de revenus, pas d’incitation à produire de la merde.

Ca va réduire une partie, certe. Plus ou moins grande.
Mais pour la manipulation d'opinion, le ROI n'est pas que pécuniaire.

white_tentacle Premium

Le 06/02/2025 à 18h21

C’est vrai, j’aurais du dire « moins d’incitation »

Furanku Premium

Le 06/02/2025 à 13h40

Nous verrons aussi comment beaucoup de ces sites servent les intérêts de professionnels du référencement, qui les utilisent pour créer des univers sémantiques et des renvois de liens, éventuellement vendus à des tiers, pour doper la visibilité de business bien réels cette fois.

Je confirme, pour en avoir rapidement parlé avec le CTO d'une entreprise lors d'une journée de conférences en octobre dernier. Il m'expliquait qu'un de ses dev faisait des essais à ce niveau, pour optimiser le référencement de sites clients grâce à des fermes de site générés par IA. Et que le résultat était plus que probant.

Si rien n'est fait au niveau du référencement pour pénaliser ces pratiques, les recherches vont devenir des champs de sites GenAI.

Alexandre Laurent Équipe

Le 06/02/2025 à 14h00

C'est déjà le cas :/

Neliger Premium

Le 06/02/2025 à 13h48

Attention tout de même aux implications de l'usage de l'IA de votre côté.

Etre abonné à Next, c'est aussi chercher à bénéficier de contenu préparé et raisonné par un humain. A la moindre suspicion que ce ne soit plus le cas, cet intérêt serait irrémédiablement perdu.

Alexandre Laurent Équipe

Le 06/02/2025 à 13h59

Pour cette enquête, Manhack a collecté et vérifié à la main plus de 1000 sites, on n'a pas perdu la patte artisanale, pas d'inquiétude à avoir à ce niveau !

(On pourra un jour détailler nos pratiques en matière d'IA si ça intéresse nos abonnés, mais elles sont très limitées)

Neliger Premium

Le 06/02/2025 à 18h16

Super, merci ! :)

Parceque c'est vrai qu'on commence à être innondé du contenu IA, ça se remarque encore, c'est très polluant :S

pamputt Premium

Modifié le 06/02/2025 à 14h38

La question que tout le monde se pose, c'est est-ce que Jean-Marc Manach a identifié des sites qui plagient Next lors de son enquête ? On saura ainsi si les générateurs de merde considère Next comme suffisamment digne de confiance pour en pomper le contenu dans vergogne

Lyzz

Le 06/02/2025 à 14h44

J'imagine que c'est peut être + compliqué parce qu'il faut un abonnement pour accéder aux articles complets ?

Alexandre Laurent Équipe

Le 06/02/2025 à 15h33

héhé ça limite un peu le phénomène mais en volume, la majorité de nos contenus sont gratuits. Sinon, oui, on a déjà identifié des repompages de certains de nos articles sur des sites GenAI

Jean-Marc Manach Équipe

Le 06/02/2025 à 17h14

Les plagiaires cherchent à surfer sur le buzz... ce qui ne correspond pas vraiment à notre ligne éditoriale ni au sujet de nos articles, désolé.

DontCodeLikeAPig Premium

Le 06/02/2025 à 14h47

On ne vous félicitera jamais assez pour vos sous-titres si bien trouvés en toutes circonstances

Faut que je prenne le temps de lire vos différents articles sur le sujet à tête reposée mais merci à vous d'avoir pris le temps de creuser cette intuition, le résultat est effrayant mais permet de mettre en lumière ces pratiques dont je ne me doutais pas de la portée ! Et l'extension c'est la cerise sur le gâteau, merci à toutes et tous pour votre travail

eliumnick

Le 06/02/2025 à 14h52

C'est la raison pour laquelle nous avons souhaité donner une dimension collaborative à cette enquête, en partageant nos trouvailles avec d'autres médias, dont Libération.

Mais vous avez quand même réservé cette enquête aux abonnés.

hellmut Premium

Le 06/02/2025 à 15h12

faut bien payer les journalistes non ? ^^

Alexandre Laurent Équipe

Le 06/02/2025 à 15h35

On parle d'une enquête qui représente plusieurs mois de travail, réalisée par un média dont les recettes ne dépendent que des abonnements, et dont le budget est à l'heure actuelle loin de l'équilibre. Oui, on a réservé une partie de cette enquête aux abonnés. Cet édito est en accès libre, l'extension est en accès libre.

eliumnick

Le 06/02/2025 à 15h50

Je relevais simplement que ça fait bizarre de dire que c'est collaboratif, mais seulement pour ceux qui payent.

plopl Premium

Le 06/02/2025 à 17h21

Sur le site de libé le CheckNews "Comment le site «Next», partenaire de «Libé», a identifié un millier de sites d’informations générés par IA" est aussi réservé aux abonnés, de même que l'Enquête "Faux rédacteurs, vrais profits : comment l’intelligence artificielle parasite l’info".

C'est pour ceux qui paient à la collectivité.

StoBoy77

Le 06/02/2025 à 16h17

Un gros

pour le dessin de @Flock. Discret mais efficace

OB Premium

Le 06/02/2025 à 19h23

Pour les articles de tech c'est l'enfer , notamment quand on cherche des infos sur une manip spécifique dans un domaine assez généraliste, que ce soit pour faire un truc sous windows ou pour de la mécanique...

Les sites qui sortes sont inutiles, se paraphrasent tous, et l'IA (si on peux appeler ça comme ca) est largement reconnaissable. Après je cherche aussi souvent sur Google / Bing / Duckduckgoo , donc forcément c'est plus idéal désormais...

white_tentacle Premium

Le 06/02/2025 à 19h26

Après je cherche aussi souvent sur Google / Bing / Duckduckgoo , donc forcément c'est plus idéal désormais...

oui mais tu veux chercher avec quoi ? À part les sites techs qui disposent en interne d’un bon moteur de recherche.

Je sais qu’on peut restreindre une recherche google/bing/etc. à un seul site/domaine, est-ce qu’on peut faire la même chose avec une liste de domaines ?

RunGp

Modifié le 07/02/2025 à 08h56

Y'a bien https://kagi.com/ le peu de test avec la version gratuite que j'ai faite retourne plutôt de bon resultat

Bleep Premium

Le 07/02/2025 à 20h06

Vous êtes magiques. Merci pour ces recherches, ce travail d'enquête, et cette extension.

fdorin Premium

Le 11/02/2025 à 21h35

Pour les plus curieux, l'analyse de Wikipédia est disponible ici :

Wikipedia