Faux positifs : comment reconnaître les contenus identifiés, à tort, comme générés par IA
It's not a bug, it's a feature

Le nombre exponentiel de contenus « GenAI » polluant le web est tel qu'il devient parfois difficile de distinguer les contenus émanant d'êtres humains de ceux générés par des IA. Nous avons, a contrario, identifié plusieurs « faux positifs » dans le cadre de notre enquête sur les sites d'info GenAI. Après avoir expliqué comment identifier de tels contenus, il nous semble important d'expliquer comment nous avons décelé ces « faux positifs », de sorte de ne pas, non plus, contribuer à la « panique morale » autour de la GenAI. L'exercice nous a par ailleurs permis de mettre au jour, dans la presse régionale, des pratiques éditoriales qui, si elles ne reposent que partiellement sur de la GenAI, n'en restent pas moins discutables faute d'avoir été correctement supervisées.
Le 20 mars à 15h53
24 min
IA et algorithmes
IA
Six mois seulement après le lancement, fin 2022, de ChatGPT, des sites d'information anglo-saxons, comme RollingStone et The Markup, rapportaient déjà le cas d'étudiants accusés, à tort, d'avoir rendu des devoirs rédigés grâce au chatbot d'OpenAI. En cause, notamment, le fait que l'anglais n'étant pas leur langue maternelle, leurs textes étaient plus « plats » que ceux écrits par des natifs, et ressemblaient donc aux textes synthétiques générés par l'IA.
Depuis, et même si ChatGPT et ses avatars se sont considérablement améliorés, et qu'il existe beaucoup de services web destinés à « humaniser » les textes GenAI, et tromper les détecteurs de contenus générés par IA, l'explosion du nombre de ce type de contenus disponible en ligne augmente statistiquement la probabilité de tels « faux positifs », et donc que des contenus générés par des humains soient identifiés à tort comme GenAI.
Or, cette « pollution » de contenus « synthétiques », car GenAI, à laquelle nous assistons ne saurait faire de l'IA l'« idiot utile » non plus que le « coupable désigné » des potentiels problèmes éditoriaux auxquels nous pourrions être confrontés. Si les contenus bas de gamme (AI « slop ») sont relativement faciles à identifier, d'autres deviennent quasiment impossibles à distinguer.
Or, et de même que les journalistes (a fortiori d'investigation), enquêteurs de police judiciaire ou analystes du renseignement sont « a priori » censés enquêter « à charge et à décharge », en évitant les biais cognitifs et les approximations, on ne saurait partir du postulat qu'un contenu « suspect » serait forcément « coupable ». Les nombreux exemples de « faux positifs » que nous avons identifiés dans le cadre de notre enquête sur les sites d'information GenAI devraient à ce titre appeler à la mesure et à la prudence.
Le problème n'est pas d'avoir recours à la GenAI, en soi, mais de ne pas être transparent en la matière. D'aucuns utilisent de façon légitime ce type de contenus GenAI, de façon « supervisée », en mode « rédacteurs hybrides », avec des contenus estampillés comme tels.
Comme indiqué dans notre article expliquant comment reconnaître ces contenus GenAI, ces derniers partagent un certain nombre de caractéristiques, techniques, tactiques et procédures (TTP), mais s'ils peuvent dresser un « faisceau d'indices », ils ne sauraient, pour autant, servir de « preuves ».
Nous avions résumé ces TTP dans l'article présentant l'extension (Chrome et Firefox) que nous avons développée pour alerter les internautes lorsqu'ils consultent les sites d'information « en tout ou partie » GenAI que nous avons identifiés.
En cliquant sur le bouton de l'extension, vous retrouverez en effet cette grille de lecture (non cumulative, ni exhaustive) :
- Ils ont recours à des expressions, patterns ou hallucinations typiques des contenus GenAI,
- sont signés de journalistes qui n'existent pas et/ou dont l'hyperproductivité est inhumaine,
- ne sont que des traductions et/ou paraphrases d'autres articles (mais sans les mentionner),
- ont recours à des images générées par IA ne correspondant pas aux critères journalistiques,
- alignent des poncifs lénifiants ou moralisants plutôt que de présenter et recouper des faits,
- ont été publiés sur un site sans mention légale (ou fictive) ou sans directeur de publication,
- usurpent la réputation de « noms de domaine expirés » pour cibler Google News & Discover,
- s'apparentent plus à des contenus optimisés pour le SEO qu'à des articles journalistiques.
7 sites GenAI avant d'arriver à trouver une « vraie » info
Son utilité nous a depuis et notamment été démontrée par un commentaire partagé par fdorin expliquant que « Le problème, c'est que les sites GenIA sont tellement faciles à faire qu'ils pullulent sur internet. L'autre jour, je cherchais un lien pour donner une source, j'ai dû faire 7 sites avant d'en avoir un non GenAI ».
Or, son lien, publié en commentaire d'une autre actu, renvoyait... lui aussi à un site d'info GenAI, signe qu'il devient parfois de plus en plus difficile d'identifier un article fiable et non-GenAI.
Depuis le lancement de notre extension, il y a un mois et demi, ses utilisateurs nous ont signalé plus de 400 sites potentiellement GenAI, et nous profitons de l'occasion pour les (et vous) en remercier, le nombre de sites GenAI répertoriés par nos soins étant depuis passé de 1 000 à plus de 3 000.
Pour autant, nous avons aussi reçu des dizaines de signalements au sujet de... sites GenAI qui sont pourtant d'ores et déjà « flagués » par notre extension, ou encore de la page de présentation de notre extension Firefox, son pendant Chrome ayant par ailleurs été pollué par un commentaire négatif, émanant d'un serial-éditeur de sites GenAI nous accusant de « Censure moderne » (sic : n'hésitez pas à y rajouter des notes et commentaires positifs).
Nous avons aussi fait l'objet de plusieurs signalements au sujet de sites que nous avons eu du mal à identifier comme étant « en tout ou partie » GenAI, voire qui ne l'étaient pas, ou encore des sites précisant bien qu'ils étaient « en tout ou partie » générés pas IA. Notre extension ne signale d'ailleurs pas ces derniers puisqu'ils le mentionnent eux-mêmes. Voir par exemple, à titre d'exemple, le site d’actualités alimenté par IA créé en seulement 2 heures par Sébastien Gavois, ou les deux sites GenAI créés à des fins d'expérimentation par Ari Kouts.
À mesure que certaines des caractéristiques, techniques, tactiques et procédures (TTP) des sites d'info GenAI peuvent effectivement sembler particulièrement subtiles, et réclamer un examen plus approfondi... ces signalements nous ont aussi permis de découvrir que certains d'entre eux pouvaient relever de « faux positifs », identifiés à tort comme étant « en tout ou partie » générés par IA.
« Le journIAlisme, verrue parmi les verrues »
Il reste 78% de l'article à découvrir.
Déjà abonné ? Se connecter

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousFaux positifs : comment reconnaître les contenus identifiés, à tort, comme générés par IA
-
7 sites GenAI avant d'arriver à trouver une « vraie » info
-
« Le journIAlisme, verrue parmi les verrues »
-
Des articles GenAI signés d'une journaliste décédée ?
-
Des « patterns » intrigants
-
Une dépendance à l'algorithme Discover de recommandation d'articles de Google
-
« Une réduction d’environ 2 % sur votre facture annuelle de chauffage »
-
« C’est une question que de nombreux consommateurs se posent » : Non
-
« Selon une étude fictive mais plausible »
-
« Ce shampoing à moins de 2 € » coûte... 10,90 €
-
Un plagiat de plagiat de plagiat, relayant une fausse info, générée par IA
-
Des plagiats d'articles et de photos ?
Commentaires (8)
Modifié le 20/03/2025 à 16h16
Et la lumière fut !
Le 20/03/2025 à 17h00
Déjà quand le titre est louche faut se méfier du genre "cette marque blablabla" (au lieu de la citer directement)
Quand il faut plus de 19 paragraphes pour avoir le pseudo information, c'est lourdingue, et si en plus il faut la vérifier pour etre sur que ce ne soit pas une hallu...
Et maintenant va falloir aussi vérifier sur libra memoria si le ou la journaliste n'est pas mort(e).
Malheureusement, je me dis que le quidam moyen ne voit pas la différence. Pis, il s'en fout !
Et comme la mention "generé par IA" est tout en bas de la page (enfin quanc c'est mentionné), je dirai que 99,99999% des gens ne la verront jamais puisqu'ils ne lisent jamais jusqu'au bout.
Bref, Internet c'était mieux AVANT l'IA.
Je suis a deux doigts de dire Internet tel qu'on l'a connu est mort...
Le 20/03/2025 à 17h36
Mais d'accord avec vous ;-)
Le 20/03/2025 à 20h52
Le plus gros probleme est là en effet ama…
Le 21/03/2025 à 09h46
fameuxfumeux "les 10 meilleurs endroits pour XXX, le 8e va vous surprendre".En ce qui me concerne, c'est un des points, avec leur cookie wall, qui fait que je vais de moins en moins sur le site des Numériques (mais ils sont très loin d'être les seuls).
Le 21/03/2025 à 08h49
Modifié le 25/03/2025 à 16h53
Le 26/03/2025 à 10h03