Connexion
Abonnez-vous

Comment reconnaître les sites (d’infos) générés par des IA ?

IA là !

Comment reconnaître les sites (d’infos) générés par des IA ?

L'enquête nous ayant permis de découvrir plus de 1 000 sites d'actualité alimentés au moyen d'intelligences artificielles génératives (GenAI) montre que leurs articles n'ont vraisemblablement pas été écrits par des journalistes ou rédacteurs, ni même relus ou corrigés avant publication. Notre méthodologie a par ailleurs été challengée et vérifiée par deux contributeurs expérimentés de l'encyclopédie Wikipédia, et deux journalistes du service de fact-checking CheckNews de Libération.

Le 06 février à 09h08

Le fait d'avoir passé des mois à identifier plus de 1 000 sites d'information générés par IA nous a permis de visualiser des milliers d'images souvent, elles aussi, GenAI, mais aussi et surtout de nous familiariser avec les caractéristiques partagées par ces contenus synthétiques.

Si leurs articles ont pu tromper des « contributeurs expérimentés, voire très expérimentés » de Wikipédia, comme nous le relevions dans le premier article consacré à cette enquête au long cours, c'est qu'ils n'avaient pas été entraînés ni sensibilisés au fait de les reconnaître d'une part, d'autre part parce qu'ils ne s'attendaient pas à voir ces sites d'information, auparavant considérés comme fiables, être désormais alimentés par IA.

Ce pourquoi il nous a semblé important de consacrer un article expliquant comment nous avons procédé, et donc comment identifier les sites et articles générés par IA. À toutes fins utiles, Next a aussi développé une extension web (pour Firefox et les navigateurs basés sur Chrome) afin d'afficher un message d'alerte sur les sites que nous avons d'ores et déjà identifiés comme GenAI parce que leurs articles nous semblent avoir, en tout ou partie, été générés par IA.

Au printemps 2023, nous avions de notre part consacré deux articles aux moyens d'identifier les textes et images générés au moyen d'intelligences artificielles. Nous avions alors constaté que les outils de détection des contenus GenAI généraient eux-mêmes de nombreux « faux positifs » (contenus créés par des humains, mais identifiés à tort comme GenAI), et « faux négatifs » (contenus GenAI, mais non reconnus comme tels).

Ceux que nous avions alors testés avaient pour la plupart failli à identifier le texte généré par ChatGPT, en français, que nous leur avions soumis. Certains détecteurs affirmaient que la probabilité qu'il ait été écrit par une IA était de 1 à 25,6 %. D'autres considéraient probable à 97 % et même 100 % qu'il ait été écrit par un humain.

AI detectionAI detection
AI detectionAI detection

De plus, cette façon de présenter les résultats, avec des « X % » surlignés de vert ou de rouge, relève de « dark patterns » (ou « interfaces truquées ») cherchant à faire croire que leurs calculs de probabilité seraient (quasi-)infaillibles.

Cette forme de « solutionnisme technologique » est une façon biaisée de traiter le problème. Comme l'a résumé le psychologue Abraham Maslow, aussi connu pour sa « Pyramide des besoins » : « J’imagine qu’il est tentant, si le seul outil dont vous disposiez est un marteau, de tout considérer comme un clou » (cette proposition est quelquefois nommée loi de l'instrument, ou « marteau de Maslow »).

De plus, les professionnels du « black hat SEO » (pour « Search Engine Optimization »), connus pour développer des techniques susceptibles de « pirater » les algorithmes des moteurs de recherches, se sont eux aussi rués sur ces IA génératives pour développer des générateurs d'articles « en vrac », optimisés pour déjouer ces détecteurs de contenus GenAI (nous y reviendrons dans un prochain article).

Une méthodologie challengée et validée par des pairs

Ces différentes limites expliquent pourquoi nous n'avons pas utilisé de tels outils, reposant eux-même sur des IA, dans le cadre de notre enquête. Nous avons, a contrario, opté pour une méthodologie, basée sur l'identification et la reconnaissance (humaine, à l'œil nu) de leurs techniques, tactiques et procédures (TTP).

Il reste 82% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Commentaires (15)

votre avatar
Je viens de tester l'extension, ça a l'air de bien marcher. Franchement c'est énorme. Si le suivi et la mise à jour sont au rendez-vous, vous lancez un gros gros pavé dans la mare. Merci énormément. https://addons.mozilla.org/fr/firefox/addon/alerte-sur-les-sites-genai/?utm_source=addons.mozilla.org&utm_medium=referral&utm_content=search
votre avatar
Que dire, à part encore 1000 mercis ? :inpactitude:
votre avatar
Est-ce normal que je ne la trouve pas pour Firefox sur Android? Une recherche sur "GenAI" sur le magasin d'extension sur Windows m'affiche la bonne extension en 3ème résultat, et ne la retourne pas du tout sur Android.
votre avatar
Sur la page de l’extension, elle est indiquée comme non compatible avec FF pour Android.
votre avatar
Quelle article ! Merci à Next de proposer ce genre d'études!
(et pour l'extension que je vais installer de ce pas)
votre avatar
Reworld is the new world...
votre avatar
Les articles GenAI proposent souvent une table des matières […] ainsi que des listes à puce
dans un article avec une table des matière et des listes à puce :mrgreen:
votre avatar
J'ai testé sur quelques sources que j'avais masquées dans Google News et .. ça fonctionne ! Merci !
votre avatar
Encore une fois, bravo pour le taff ! :incline:

Oh bordel, les articles sur lesnews.ca :mad2:
Ça va être infecte le web si on continue à être infesté de ce genre de sites...

Concernant les rédacteurs hybrides, je pense à un certain blog fr k*.info... bon, il ne s'en cache pas, fait des "efforts" pour retoucher ses articles, mais bon...
votre avatar
@Équipe @SébastienGavois @Jean-MarcManach

Merci pour cette extension !

J'ai une question annexe, concernant plus précisément le plagiat.

Depuis plusieurs années, le site "https://www.malekal.com" (les vieux anciens connaissent) se plaint d'être plagié régulièrement de certains de ses articles (notamment ceux qui lui demandent souvent beaucoup de temps à rédiger) par le site "https://lecrabeinfo.net".
Voir ici : "https://www.malekal.com/lecrabeinfo-net-recopie-t-il-et-plagiat-malekal-com"

Malheureusement, le site du crabe est mieux référencé, d'une esthétique plus agréable (quoique Malekal se soit modernisé), et comprend moins de fautes d'orthographe/grammaire.

Quelles sont les éventuelles parades ou actions possibles dans ce genre de cas ?
votre avatar
Le Crabe émane d'un "rédacteur SEO" (https://redacdesign.com), ce pourquoi il est mieux référencé, mais pour autant, son site ne semble pas reposer sur une industrialisation de la GenAI.
votre avatar
Merci, je comprends mieux pour le référencement. L'ancienneté d'un site semble être aujourd'hui un critère moins important pour le référencement.

Par contre, je ne l'ai pas rangé parmi les sites GenAI. Je n'en sais pas plus que ça.
J'ai bien précisé qu'il s'agissait d'une « question annexe, concernant plus précisément le plagiat ».
votre avatar
Je me joins aux autres pour vous remercier chaleureusement pour ce genre d'articles. ¡ Muchas gracias ! :pciwin:

Les sites d'actu GenAI me rappellent très fortement ce que l'on appelait dans les années 2010 "les fermes de contenus", ces sites inutiles qui parcouraient le web et dupliquait n'importe comment des articles légitimes.
votre avatar
Je suis désolé, mais je n'ai pas pu fournir de commentaire correct à cet article.
votre avatar
Mais comment détecter sans chercher l'article reformulé... la question reste ouverte sachant que les différents IA donnent des résultat différents. En plus on peut assez finement changer le style.

Exemple avec ces gros bouchons de valves pour pneus de voiture en forme de "tête de mort" :
Texte original :
"Gros et lourds, c’est un coup à flinguer l’équilibrage de la roue ou à infliger une tension sur la valve à haute vitesse. Ce second point est bête quand la valve est associée à un coûteux système de surveillance de la pression du pneu. De plus, vous n’avez aucune garantie quant à la position des yeux une fois le bouchon vissé. Éventuellement pour un vélo, mais clairement pas pour une voiture !"
(c'est mon commentaire original car on me demande une expérience personnelle, ici je m'adapte à la cible plus "tuning" que lecteurs de prix Goncourt bien que l'un n'empêche pas l'autre)

C'est parti pour m'auto-plagier avec Mistral :
On remarque au passage que Mistral associe plusieurs bouchons à un seul pneu.

Reformulation 1 :
J'ai trouvé que ces bouchons de valve étaient vraiment gros et lourds. À cause de ça, ils ont complètement déséquilibré ma roue et mis une tension sur la valve quand je roulais à haute vitesse. Le pire, c'est que ma valve était connectée à un système de surveillance de la pression des pneus super coûteux. En plus, une fois le bouchon vissé, les yeux n'étaient même pas bien positionnés. Franchement, ça pourrait peut-être passer sur un vélo, mais clairement pas sur une voiture !

Reformulation 2 (soutenu):
J'ai constaté que ces bouchons de valve étaient particulièrement volumineux et pesants. En conséquence, ils ont perturbé l'équilibrage de ma roue et exercé une tension sur la valve lorsque je roulais à grande vitesse. Ce désagrément est d'autant plus regrettable que ma valve était équipée d'un coûteux système de surveillance de la pression des pneus. De surcroît, une fois le bouchon vissé, la position des yeux n'était pas garantie. À la rigueur, cela pourrait convenir pour un vélo, mais certainement pas pour une voiture !

Reformulation 3 en version "journalistique":

Lors de l'utilisation de ces bouchons de valve, on remarque rapidement leur taille imposante et leur poids conséquent. Ces caractéristiques ont pour effet de déséquilibrer la roue et d'exercer une tension sur la valve à haute vitesse. Ce problème est d'autant plus fâcheux lorsque la valve est associée à un coûteux système de surveillance de la pression des pneus. De plus, une fois le bouchon vissé, la position des yeux n'est pas garantie, ce qui ajoute une frustration supplémentaire. En somme, ces bouchons pourraient éventuellement convenir à un vélo, mais ils ne sont clairement pas adaptés à une utilisation automobile.

Comment reconnaître les sites (d’infos) générés par des IA ?

  • Une méthodologie challengée et validée par des pairs

  • Comment reconnaître les sites générés par des IA (GenAI) ?

  • « Le web est à nous ! »

  • Une absence de relecture et de validation humaine

  • Un robot chargé de paraphraser des articles bâclés de façon industrialisée

  • Des citations « hallucinées »

Fermer