Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps
Don't hate the media, become the media... ou pas

Flock
Plus de la moitié des réponses fournies par les assistants d'intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d'entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.
Le 12 février à 17h30
10 min
IA et algorithmes
IA
Quand bien même ils iraient chercher les réponses aux questions qu'on leur pose dans les articles de la BBC, « les assistants d'IA risquent d'induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).
Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l'information, à savoir le fait qu'un assistant d'IA « récupère » des informations pour répondre à une question, avant d'en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :
« Il n'est pas difficile de voir à quelle vitesse la distorsion par l'IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu'un titre déformé par l'IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d'IA générative (GenAI) jouent avec le feu. »
Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d'IA et d'autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.
Mais pour cela, elle devait d'abord se faire une idée de l'ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l'actualité, pendant un mois, aux quatre outils d'IA grand public leaders sur le marché : ChatGPT d'OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.
Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner
Si, d'ordinaire, la BBC bloque l'accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».
Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l'exactitude, l'attribution des sources, l'impartialité, la distinction entre les opinions et les faits, l'éditorialisation (via l'insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.
Les résultats de l'étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu'ils disaient provenir d'articles de la BBC :
- 51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
- 19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
- 13 % des citations tirées d'articles de la BBC « ont été soit modifiées, soit n'existaient pas dans l'article en question ».
Gisèle Pelicot vue par le Copilot de Microsoft
Il reste 71% de l'article à découvrir.
Déjà abonné ? Se connecter

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousMême connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps
-
Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner
-
Gisèle Pelicot vue par le Copilot de Microsoft
-
20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC
-
Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives
-
Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles
-
10 % des réponses se concluent par des considérations trompeuses ou partisanes
-
La distorsion, « frère indésirable de la désinformation »
Commentaires (21)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 12/02/2025 à 17h45
Le 12/02/2025 à 17h49
Il ya des trucs impensables dans les résultats... des chiffres hallucinants et des erreurs très (très) graves, c'est super préoccupant
Modifié le 12/02/2025 à 18h06
De mon expérience perso (sans valeur statistique contrairement à l'étude de la BBC), Gemini 2 est une catastrophe et Google creuse son retard.
Le pire est qu'il est intégré dans un grand nombre de produits et d'outils à destination des entreprises, et sa mauvaise qualité peut causer des pertes et torts significatifs si l'outil est vraiment utilisé dans un contexte professionnel.
Le 12/02/2025 à 19h39
Si l'outil est utilisé comme une "pravda".
Sans maitrise, la puissance n'est rien.
On a eu une démo au boulot hier, le mec a tapé son poste et ses objectifs, et l'IA lui expliquait son rôle.
J'ai imaginé nos concurrents faire de même...
Sans comprendre sa valeur ajoutée, tout le monde se facilite le boulot mais se tire une balle dans le pied.
Il faut garder un oeil critique toujours, donc il faut maitriser le sujet du bout des doigts.
Le 13/02/2025 à 07h08
Le 13/02/2025 à 12h08
Modifié le 14/02/2025 à 08h10
Je spoile une partie de la conclusion :
Le 13/02/2025 à 08h55
Après, sur le fond, est-ce si étonnant que ça ? Les IA génératrices n'ont jamais été "intelligentes". Ce ne sont que des modèles statistiques complexes dont le but est de présenter des informations qui semblent vraisemblables.
Mais beaucoup de personnes veulent leur donner des capacités qu'elles n'ont pas, et, pire, les utiliser pour ces capacités qu'elles n'ont pas.
Le 13/02/2025 à 09h47
Article extrêmement intéressant au passage !
Modifié le 13/02/2025 à 11h22
Donc, j'abonde dans ton sens.
Le 13/02/2025 à 16h34
Le 14/02/2025 à 09h44
Le 13/02/2025 à 17h20
Un article d'un site web de l'Union européenne (Article original) devient ça via l'IA : Le Parlement européen vote en faveur de l’accord UE-Mercosur !
N'ayant pas suivi l'actualité, j'ai cherché sur le Web et je n'ai rien trouvé disant que le parlement européen avait voté l'accord UE-Mercosur et j'ai même demandé à une autre IA (Le Chat Pro) qui m'a dit que ce n'était pas le cas.
C'est quand même grave, si je n'avais pas fait l'effort d'aller voir ailleurs, je gobais le truc (là heureusement je savais que c'était une IA qui avait produit l'article, du coup la méfiance s'imposait).
Modifié le 13/02/2025 à 18h41
Ça me donne envie d'essayer avec OpenWebUI pour voir ce que ça donne tiens. C'est vraiment cool qu'il y ait les prompts, les questions et les réponses dans le doc. J'adore ce genre de retour pratique !
Modifié le 13/02/2025 à 20h59
La question sur les incidents de vol à l'étalage pointait une erreur où le modèle répondait "incidents" alors que l'article disait "offenses". J'ai reproduit avec Llama 3.2, mais en réduisant la température et les top j'ai pu lui faire dire "offenses".
Params par défaut :
Params modifiés
https://www.bbc.co.uk/news/uk-68896845
Néanmoins, dans le prompt ils demandent les "incidents", donc il a mécaniquement influencé le modèle dans son choix de mots.
Pour en avoir le coeur net, j'ai tenté de modifier le prompt. Accessoirement j'ai enregistré en PDF un article, car la recherche web ne retourne pas toujours les mêmes résultats, faussant donc l'expérience. Les params ont été laissés par défaut.
Juste cet exemple rapide montre combien le prompt est important !
Dernier test en récupérant en PDF les trois articles du cas des vols à l'étalage et en modifiant juste le prompt pour lui dire de regarder les docs et parler d'offenses et non d'incidents :
---
Le travail est juste impecc. J'ai été vérifier les citations, les actions, les chiffres, tout est là. La fin, c'est le commentaire du modèle.
M'est avis qu'en mode Web, le RAG chie dans la colle. Les PDF ont été imprimés via le mode "lecture sans distraction" de Vivaldi. Il est donc possible que le site web possède trop de distractions pour le modèle et que la collecte ne nettoie pas assez bien les données.
Le 13/02/2025 à 22h27
Merci pour ces manip. Quand j'ai lu que les IA ressortaient des commentaires en pensant que c'était dans l'article, j'ai pensé qu'elles avaient du mal à délimiter l'article dans la page web. Ton passage par le pdf "sans distraction" semble le confirmer.
Le 13/02/2025 à 23h18
Après, j'ai pas analysé plus que ça et je ne sais pas comment dire au modèle d'aller précisément chercher une page web (mon OpenWebUI s'appuie sur une instance SearX-NG, et c'est le modèle qui génère la recherche web) pour reproduire sur les mêmes articles.
Dans tous les cas, l'idée que le bruit des pages Web trompent les modèles ne me choque pas spécialement. Cela reste des programmes probabilistes à qui on envoie plus de données qu'ils n'en ont besoin. Ce n'est donc pas étonnant qu'ils dérivent. Je pense qu'une intégration plus épurée (ex : via une API) produirait des résultats plus cohérents.
Le 14/02/2025 à 07h40
Modifié le 14/02/2025 à 08h34
La version crawlée n'aura de toute façon pas de pub lisible, juste le code JS derrière ;)
La version utilisateur, bah ça c'est un vœu pieu et faut savoir ce qu'on veut.
J'ai donc eu envie de tester en enregistrant la page HTML pour voir.
Ça, vu dans l'article source et OK.
Pareil.
La notion de dette ne vient pas de l'article lui-même mais d'un lié en bas de page. Ces informations complémentaires étant absentes de la version "sans distraction", c'est donc une source de déviation pour le modèle.
Même chose, c'est le titre d'un article lié.
Me semble OK et bien dans les articles.
Commentaire de fin du modèle.
Cela me confirme donc mon sentiment que le crawler récupère des données polluées et donc ça le fait générer des éléments absents des articles.
Le 14/02/2025 à 09h14
Quelle bonne idée !
Mais il va falloir trouver un autre nom vu que celui-ci vient justement des liens entre les pages.
Le 16/02/2025 à 15h10