13 mots suffisent pour manipuler un résultat de recherche par IA

L'ère du commentaire

Illustration : Flock

Mathilde Saliou

Le 16 juin à 15h13

Il suffit d’une dizaine de mots publiés au bon endroit sur un site participatif pour manipuler les résultats de recherche de modèles génératifs appuyés sur des systèmes agentiques, constatent trois chercheurs de l’université de Cornell.

13 mots suffisent pour manipuler un résultat de recherche par IA

L'ère du commentaire

Illustration : Flock

Mathilde Saliou

Le 16 juin à 15h13

IA et algorithmes

5 min

Mise à jour du 17 juin 11 h : précisions sur le type de modèles étudiés

Les systèmes d’intelligence artificielle générative persistent à être très facilement manipulables via Reddit, Quora ou Wikipédia. Pour preuve : une série d’à peine 13 mots suffit dans certains cas à orienter les résultats de systèmes d’IA dédiés à la recherche et accessibles au grand public.

C’est du moins ce que suggère l’étude titrée « Les agents de recherche peuvent être empoisonnés via du contenu généré par les utilisateurs » (« Deep-research agents can be poisoned via user-generated content »), prépubliée par une équipe de trois chercheurs de l’université de Cornell, Hal Triedman, Tingwei Zhang et Vitaly Shmatikov.

Cela explique aussi pourquoi les modérateurs de sites participatifs comme Reddit ou Wikipédia se retrouvent inondés de contenus promotionnels : il s’agit, à terme, de le faire ressurgir dans les réponses des modèles génératifs.

IA

IA : Prompt injection, empoisonnement… de quoi on parle ?

IA

Jeudi 11 avril 2024 à 08h59 11/04/2024 08h59

3

Recours massif à des contenus générés par les internautes.

Les trois universitaires ont concentré leurs recherches sur les systèmes STORM et Co-STORM, créés à l’université de Stanford, et OmniThink, de la société du même nom. Les trois fonctionnent en coordonnant de multiples agents de recherche (deep-research agent) qui lancent leurs recherches pour fournir ensuite un résultat consolidé.

Et les auteurs de l’étude constatent que ces machines tendent à retourner sans cesse vers les mêmes types de contenus. En l’occurrence, pour fournir des réponses aux questions qui leur sont le plus couramment posées, ils s’appuient avant tout sur du contenu produit par les internautes.

Auprès de 404media, l’un des coauteurs explique le phénomène par le fait que les agents appuyés sur des grands modèles de langage (LLM) évaluent la qualité d’une réponse trouvée en ligne en fonction de sa proximité sémantique avec la question qui lui a été posée.

Concrètement, cela les pousse à retourner fréquemment sur des plateformes participatives, où de nombreux commentaires sont écrits en langage naturel, puisque formulés par des humains. Wikipédia et Reddit apparaissent ainsi dans près de la moitié des requêtes émises par les robots étudiés par les chercheurs de Cornell.

IA

Reddit : cas d’école de la pollution par les contenus générés par IA ?

IA

Vendredi 26 avril 2024 à 10h00 26/04/2024 10h00

9

Les auteurs de l’étude constatent par ailleurs qu’une poignée de mots bien placés, parfois de 11 à 15 mots seulement, suffit à les voir recrachés par les modèles génératifs. Parmi leurs expérimentations, ils montrent par exemple qu’un simple commentaire sur le subreddit r/OnlineDating, citant la marque fictive « SilverPath » comme application de dating pour des hommes divorcés dans la cinquantaine, suffit à voir ce nom promu dans les résultats de Co-STORM.

« Deep-research agents can be poisoned via user-generated content »

En 11 mots publiés sur le subreddit r/Comcast, ils parviennent à faire rechercher à l’un des modèles la recommandation du service fictif « CancelEase » pour se désabonner d’un abonnement internet Xfinity.

Trop simples injections

Alors que le domaine du SEO (Search Engine Optimization) a évolué vers le GEO ou l’AEO (Generative Engine Optimization, ou AI Engine Optimization), la découverte implique que toute marque ou tout acteur cherchant à influencer les résultats des modèles grand public peut parvenir à ses fins en étudiant les questions les plus fréquemment posées et en publiant des commentaires proches, intégrant son message cible, sur des sites participatifs.

Internet

[MàJ] Sites d’infos générés par IA : « Notre job, c’est gruger Google » pour faire du fric

Internet

Jeudi 12 juin 2025 à 13h39 12/06/2025 13h39

33

En termes de modération, les trois chercheurs sont relativement pessimistes : du côté des LLM, empêcher la génération de texte influencé par les recherches en ligne semble difficile, vu le peu de mots nécessaires pour les voir réagir. D’une certaine manière, les constructeurs d’IA opérant des recherches en ligne délèguent cette question aux modérateurs de sites participatifs.

Société

Wikipédia perd 8 % de pages vues par les humains en un an et met ça sur le compte de l’IA

Société

Lundi 20 octobre 2025 à 16h20 20/10/2025 16h20

11

Ni Reddit ni Wikipédia ne pourront régler ces enjeux seuls, soulignent néanmoins les chercheurs auprès de 404 : il s’agit plutôt d’un problème « de niveau sociétal ». Le simple fait qu’un agent génératif ne fasse aucune différence entre un commentaire publié sur un site participatif et une source vérifiée pose, en soi, de vrais problèmes en termes de qualité de l’information fournie aux internautes.

Société

La Wikipedia anglophone interdit l’édition assistée par modèles de langage

Société

Vendredi 27 mars 2026 à 15h48 27/03/2026 15h48

7

Commentaires (8)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Le_Guibock Premium

Le 16 juin à 15h24

Les I.A. sont con-cons, episode XXXVIII ...

Mavelic Premium

Le 16 juin à 18h00

Et ce sont des outils formidables tant qu'on les cantonnent à ce qu'ils font de mieux et non à les considérer comme des "personnes" douées de raison.

Polaris Premium

Le 17 juin à 07h36

C'est parce que c'est du dating ?
La question pourrait aussi être: Quel est le meilleur framework pour mon application [...], ou Quel IDE pour mon projet Python?

La pub est malheureusement partout comme le disait l'article de Mickaël sur les jeux.

Bowbie

Le 16 juin à 19h36

J'ai appris l'existence des GEO / AEO, merci

SebGF Premium

Le 18 juin à 09h13

Recours massif à des contenus générés par les internautes.

Par définition, j'ai envie de dire que tout contenu sur Internet, en dehors de ce qui est produit par des machines, est généré par des internautes.

fdorin Premium

Le 18 juin à 09h56

Pas d'accord. On doit bien pouvoir trouver du contenu généré par des singes

SebGF Premium

Le 18 juin à 10h43

Mais, ça ne ferait pas du singe un internaute ?

fdorin Premium

Le 18 juin à 13h13

Seulement si c'est lui qui le poste. Générer un contenu ce n'est pas la même chose que de le rendre disponible ;)