Faux positifs : comment reconnaître les contenus identifiés, à tort, comme générés par IA

It's not a bug, it's a feature

Illustration : Flock

Jean-Marc Manach

Le 20 mars 2025 à 15h53

Le nombre exponentiel de contenus « GenAI » polluant le web est tel qu’il devient parfois difficile de distinguer les contenus émanant d’êtres humains de ceux générés par des IA. Nous avons, a contrario, identifié plusieurs « faux positifs » dans le cadre de notre enquête sur les sites d’info GenAI. Après avoir expliqué comment identifier de tels contenus, il nous semble important d’expliquer comment nous avons décelé ces « faux positifs », de sorte de ne pas, non plus, contribuer à la « panique morale » autour de la GenAI. L’exercice nous a par ailleurs permis de mettre au jour, dans la presse régionale, des pratiques éditoriales qui, si elles ne reposent que partiellement sur de la GenAI, n’en restent pas moins discutables faute d’avoir été correctement supervisées.

Faux positifs : comment reconnaître les contenus identifiés, à tort, comme générés par IA

It's not a bug, it's a feature

Illustration : Flock

Jean-Marc Manach

Le 20 mars 2025 à 15h53

IA et algorithmes

24 min

Six mois seulement après le lancement, fin 2022, de ChatGPT, des sites d’information anglo-saxons, comme RollingStone et The Markup, rapportaient déjà le cas d’étudiants accusés, à tort, d’avoir rendu des devoirs rédigés grâce au chatbot d’OpenAI. En cause, notamment, le fait que l’anglais n’étant pas leur langue maternelle, leurs textes étaient plus « plats » que ceux écrits par des natifs, et ressemblaient donc aux textes synthétiques générés par l’IA.

Depuis, et même si ChatGPT et ses avatars se sont considérablement améliorés, et qu’il existe beaucoup de services web destinés à « humaniser » les textes GenAI, et tromper les détecteurs de contenus générés par IA, l’explosion du nombre de ce type de contenus disponible en ligne augmente statistiquement la probabilité de tels « faux positifs », et donc que des contenus générés par des humains soient identifiés à tort comme GenAI.

Or, cette « pollution » de contenus « synthétiques », car GenAI, à laquelle nous assistons ne saurait faire de l’IA l’« idiot utile » non plus que le « coupable désigné » des potentiels problèmes éditoriaux auxquels nous pourrions être confrontés. Si les contenus bas de gamme (AI « slop ») sont relativement faciles à identifier, d’autres deviennent quasiment impossibles à distinguer.

IA

La plateforme Medium est, elle aussi, inondée par les contenus générés par IA

IA

Lundi 04 novembre 2024 à 16h07 04/11/2024 16h07

9

Or, et de même que les journalistes (a fortiori d’investigation), enquêteurs de police judiciaire ou analystes du renseignement sont « a priori » censés enquêter « à charge et à décharge », en évitant les biais cognitifs et les approximations, on ne saurait partir du postulat qu’un contenu « suspect » serait forcément « coupable ». Les nombreux exemples de « faux positifs » que nous avons identifiés dans le cadre de notre enquête sur les sites d’information GenAI devraient à ce titre appeler à la mesure et à la prudence.

Le problème n’est pas d’avoir recours à la GenAI, en soi, mais de ne pas être transparent en la matière. D’aucuns utilisent de façon légitime ce type de contenus GenAI, de façon « supervisée », en mode « rédacteurs hybrides », avec des contenus estampillés comme tels.

Comme indiqué dans notre article expliquant comment reconnaître ces contenus GenAI, ces derniers partagent un certain nombre de caractéristiques, techniques, tactiques et procédures (TTP), mais s’ils peuvent dresser un « faisceau d’indices », ils ne sauraient, pour autant, servir de « preuves ».

Nous avions résumé ces TTP dans l’article présentant l’extension (Chrome et Firefox) que nous avons développée pour alerter les internautes lorsqu’ils consultent les sites d’information « en tout ou partie » GenAI que nous avons identifiés.

Droit

Comment reconnaître les sites (d’infos) générés par des IA ?

Droit

Jeudi 06 février 2025 à 09h08 06/02/2025 09h08

15

En cliquant sur le bouton de l’extension, vous retrouverez en effet cette grille de lecture (non cumulative, ni exhaustive) :

Ils ont recours à des expressions, patterns ou hallucinations typiques des contenus GenAI,
sont signés de journalistes qui n’existent pas et/ou dont l’hyperproductivité est inhumaine,
ne sont que des traductions et/ou paraphrases d’autres articles (mais sans les mentionner),
ont recours à des images générées par IA ne correspondant pas aux critères journalistiques,
alignent des poncifs lénifiants ou moralisants plutôt que de présenter et recouper des faits,
ont été publiés sur un site sans mention légale (ou fictive) ou sans directeur de publication,
usurpent la réputation de « noms de domaine expirés » pour cibler Google News & Discover,
s’apparentent plus à des contenus optimisés pour le SEO qu’à des articles journalistiques.

7 sites GenAI avant d’arriver à trouver une « vraie » info

Son utilité nous a depuis et notamment été démontrée par un commentaire partagé par fdorin expliquant que « Le problème, c’est que les sites GenIA sont tellement faciles à faire qu’ils pullulent sur internet. L’autre jour, je cherchais un lien pour donner une source, j’ai dû faire 7 sites avant d’en avoir un non GenAI ».

Or, son lien, publié en commentaire d’une autre actu, renvoyait… lui aussi à un site d’info GenAI, signe qu’il devient parfois de plus en plus difficile d’identifier un article fiable et non-GenAI.

Depuis le lancement de notre extension, il y a un mois et demi, ses utilisateurs nous ont signalé plus de 400 sites potentiellement GenAI, et nous profitons de l’occasion pour les (et vous) en remercier, le nombre de sites GenAI répertoriés par nos soins étant depuis passé de 1 000 à plus de 3 000.

Société

[Récap] Nous avons découvert des milliers de sites d’info générés par IA : tous nos articles

Société

Mardi 17 février 2026 à 07h59 17/02/2026 07h59

53

Pour autant, nous avons aussi reçu des dizaines de signalements au sujet de… sites GenAI qui sont pourtant d’ores et déjà « flagués » par notre extension, ou encore de la page de présentation de notre extension Firefox, son pendant Chrome ayant par ailleurs été pollué par un commentaire négatif, émanant d’un serial-éditeur de sites GenAI nous accusant de « Censure moderne » (sic : n’hésitez pas à y rajouter des notes et commentaires positifs).

Nous avons aussi fait l’objet de plusieurs signalements au sujet de sites que nous avons eu du mal à identifier comme étant « en tout ou partie » GenAI, voire qui ne l’étaient pas, ou encore des sites précisant bien qu’ils étaient « en tout ou partie » générés pas IA. Notre extension ne signale d’ailleurs pas ces derniers puisqu’ils le mentionnent eux-mêmes. Voir par exemple, à titre d’exemple, le site d’actualités alimenté par IA créé en seulement 2 heures par Sébastien Gavois, ou les deux sites GenAI créés à des fins d’expérimentation par Ari Kouts.

IA

T@LC : En 2 h, on a créé un site d’actualités alimenté par IA, venez voir le résultat !

IA

Mardi 11 février 2025 à 12h34 11/02/2025 12h34

47

À mesure que certaines des caractéristiques, techniques, tactiques et procédures (TTP) des sites d’info GenAI peuvent effectivement sembler particulièrement subtiles, et réclamer un examen plus approfondi… ces signalements nous ont aussi permis de découvrir que certains d’entre eux pouvaient relever de « faux positifs », identifiés à tort comme étant « en tout ou partie » générés par IA.

« Le journIAlisme, verrue parmi les verrues »

Il reste 78% de l'article à découvrir.

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

La suite de cet article est réservée à nos abonnés

Soutenez un journalisme indépendant,
expert et sans pub.

Abonnez-vous sur next.ink/subs

Commentaires (8)

fdorin Premium

Modifié le 20/03/2025 à 16h16

Son utilité nous a depuis et notamment été démontrée par un commentaire partagé par fdorin expliquant que « Le problème, c'est que les sites GenIA sont tellement faciles à faire qu'ils pullulent sur internet. L'autre jour, je cherchais un lien pour donner une source, j'ai du faire 7 sites avant d'en avoir un non GenAI ».

J'ai enfin fait tilt. Douglas Adams nous avait pourtant donner l'ultime réponse à la grande question sur la vie, l'Univers et le reste, mais sans la question. Maintenant, je l'ai : combien de sites faut-il visiter avant de trouver un site non GenAI ? 42.

Et la lumière fut !

labdam Premium

Le 20/03/2025 à 17h00

Sans dec ce genre de sites genIA devraient être bannis. Et ceux qui les créée et en vivent devraient être chatiés (Seb Inclus !).

Déjà quand le titre est louche faut se méfier du genre "cette marque blablabla" (au lieu de la citer directement)

Quand il faut plus de 19 paragraphes pour avoir le pseudo information, c'est lourdingue, et si en plus il faut la vérifier pour etre sur que ce ne soit pas une hallu...

Et maintenant va falloir aussi vérifier sur libra memoria si le ou la journaliste n'est pas mort(e).

Malheureusement, je me dis que le quidam moyen ne voit pas la différence. Pis, il s'en fout !

Et comme la mention "generé par IA" est tout en bas de la page (enfin quanc c'est mentionné), je dirai que 99,99999% des gens ne la verront jamais puisqu'ils ne lisent jamais jusqu'au bout.

Bref, Internet c'était mieux AVANT l'IA.
Je suis a deux doigts de dire Internet tel qu'on l'a connu est mort...

RuMaRoCO Premium

Le 20/03/2025 à 17h36

Pas l'internet, le WEB

Mais d'accord avec vous ;-)

Sébastien Gavois Équipe

Le 20/03/2025 à 20h52

« Pis, il s'en fout ! »
Le plus gros probleme est là en effet ama…

anagrys Premium

Le 21/03/2025 à 09h46

cette marque blablabla

Ça, c'est pas forcément du GenAI, ça peut être du simple putaclic. Comme le ~~fameux~~ fumeux "les 10 meilleurs endroits pour XXX, le 8e va vous surprendre".

En ce qui me concerne, c'est un des points, avec leur cookie wall, qui fait que je vais de moins en moins sur le site des Numériques (mais ils sont très loin d'être les seuls).

sitesref Premium

Le 21/03/2025 à 08h49

J'vois bien la prochaine magouille, consistant, pour les défenseurs du GenIA caché, à créer leur propre extension, la publier sur les moteurs, pour rendre la vôtre moins visible. Bien sûr, la leur ne fonctionnerait pas.

serpolet Premium

Modifié le 25/03/2025 à 16h53

Quand tu installes une extension (Alerte sur les sites GenAI, par Next.ink) pour alerter les sites générés par AI, et que une des premières alertes que tu reçois c'est...ton propre site, écrit avec le html et css à la main, autour de 2005 et à peine modifié depuis 😆

Mihashi Premium

Le 26/03/2025 à 10h03

Le problème avec les filtres de Bloom, ce sont les faux positifs…