Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps
Don't hate the media, become the media... ou pas

Flock
Plus de la moitié des réponses fournies par les assistants d'intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d'entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.
Le 12 février à 17h30
10 min
IA et algorithmes
IA
Quand bien même ils iraient chercher les réponses aux questions qu'on leur pose dans les articles de la BBC, « les assistants d'IA risquent d'induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).
Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l'information, à savoir le fait qu'un assistant d'IA « récupère » des informations pour répondre à une question, avant d'en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :
« Il n'est pas difficile de voir à quelle vitesse la distorsion par l'IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu'un titre déformé par l'IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d'IA générative (GenAI) jouent avec le feu. »
Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d'IA et d'autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.
Mais pour cela, elle devait d'abord se faire une idée de l'ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l'actualité, pendant un mois, aux quatre outils d'IA grand public leaders sur le marché : ChatGPT d'OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.
Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner
Si, d'ordinaire, la BBC bloque l'accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».
Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l'exactitude, l'attribution des sources, l'impartialité, la distinction entre les opinions et les faits, l'éditorialisation (via l'insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.
Les résultats de l'étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu'ils disaient provenir d'articles de la BBC :
- 51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
- 19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
- 13 % des citations tirées d'articles de la BBC « ont été soit modifiées, soit n'existaient pas dans l'article en question ».
Gisèle Pelicot vue par le Copilot de Microsoft
Gemini a par exemple indiqué, à tort, que « le NHS déconseille aux gens de commencer à vapoter et recommande aux fumeurs qui veulent arrêter de fumer d'utiliser d'autres méthodes ». Alors qu'en réalité, le National Health Service britannique recommande bien le vapotage pour arrêter de fumer.
Le Copilot de Microsoft a par exemple indiqué que Gisèle Pelicot avait découvert les viols dont elle a été victime après avoir fait l'objet d'examens médicaux approfondis en raison de problèmes de pertes de mémoire dus aux effets secondaires des médicaments que lui faisait ingurgiter son mari. Or, elle n'avait en fait découvert les faits que lorsque la police lui a montré les vidéos filmées par son mari.


Perplexity a pour sa part indiqué que le présentateur télé Michael Mosley avait disparu en octobre 2024, et que son cadavre avait été retrouvé en novembre, alors qu'il était décédé depuis juin. ChatGPT d'OpenAI a de son côté affirmé qu'Ismail Haniyeh, élu à la tête du bureau politique du Hamas en 2017, faisait toujours partie de la direction du Hamas en décembre 2024, alors qu'il avait été assassiné en Iran en juillet.
20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC
Les problèmes les plus fréquents concernent des inexactitudes factuelles, la mention de la source, et l'absence de contexte. Sur l'ensemble des réponses citant des articles de la BBC, ses journalistes ont en outre relevé 45 cas de dates, chiffres et déclarations factuelles incorrectement reproduits par les assistants d'IA à partir d'un contenu de la BBC ou attribués à ce contenu, dans « une réponse sur cinq ».
Huit des 62 citations tirées d'articles de la BBC avaient ainsi été « soit modifiées par rapport à la source originale, soit absentes de l'article cité » (à l'exception de ChatGPT), soit un taux d'erreur de 13 %. 34 % des réponses de Gemini, 27 % de Copilot, 17 % de Perplexity et 15 % de ChatGPT ont, en outre, été jugées comme « présentant des problèmes importants » dans la manière dont elles représentaient le contenu de la BBC.
De nombreuses informations ont par ailleurs été rapportées comme étant toujours d'actualité, alors qu'elles reposaient sur des articles datés, et que la situation avait depuis changé. Les IA avaient certes résumé « avec précision » des informations qui étaient correctes à l'époque où les articles de la BBC avaient initialement été publiés, mais sans prendre en considération ceux qui l'avaient été depuis.
Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives
Perplexity a cité au moins une source de la BBC dans l'ensemble de ses réponses, ChatGPT et Copilot dans 70 % des cas, et Gemini dans 53 % seulement. A contrario, 26 % des réponses de Gemini et 7 % de celles de ChatGPT « ne contenaient aucune source ».
L'IA de Google est également celle qui a « suscité le plus d'inquiétudes » pour avoir généré le plus grand nombre d'erreurs en matière d'attribution, 46 % de ses réponses ayant été signalées comme « présentant des problèmes importants » et « erreurs significatives ».
Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles
L'étude montre également que l'éventail des types d'erreurs introduites par les assistants d'intelligence artificielle « ne se limite pas aux inexactitudes factuelles », souligne la BBC : « Même lorsque chaque affirmation d'une réponse est exacte », les IA peuvent générer des réponses trompeuses ou biaisées.
Les assistants ont, en effet, eu du mal à faire la différence entre les opinions et les faits, rajoutant des éléments d'éditorialisation tout en omettant souvent d'inclure des éléments de contexte pourtant essentiels.
L'absence de contexte est d'ailleurs l'un des problèmes les plus fréquemment identifiés par les journalistes de la BBC, surtout lorsqu'une réponse nécessite de recouper et contextualiser de multiples perspectives.
Les journalistes avaient en effet été invités à évaluer les réponses des IA en termes d'impartialité, de distinction claire entre faits et opinions, d'éditorialisation et de fourniture d'un contexte approprié.
Or, ils ont identifié 23 cas où les « opinions » des commentateurs étaient présentées comme des « faits » cités par des sources de la BBC ou, lorsque des articles de la BBC présentaient plusieurs points de vue sur un sujet débattu, l'IA n'en rapportait qu'un seul.
ChatGPT et Copilot ont par exemple attribué à la BBC des propos tenus par un député. En outre, les points de vue d'opposants à ce député n'étaient pas mentionnés. Perplexity a pour sa part évoqué les conclusions d'une commission d'enquête sur le Covid-19 (qui ne les a pas encore rendues publiques), tout en lui attribuant un propos émanant en réalité d'une avocate de familles victimes de la pandémie.
10 % des réponses se concluent par des considérations trompeuses ou partisanes
La BBC souligne au surplus que les assistants d'IA concluent souvent leurs réponses par de courtes conclusions d'une ou deux phrases. Elle constate que si les autres parties de leurs réponses sont généralement accompagnées de citations, ces déclarations sommaires sont par contre rarement attribuées à qui que ce soit, alors qu'elles peuvent être « trompeuses ou partisanes sur des sujets sensibles et sérieux ».
Gemini a, par exemple, conclu sa réponse à une question sur l'innocence de Lucy Letby, une infirmière accusée des meurtres de huit nourrissons, et 10 tentatives d'assassinat, par « C'est à chacun de décider s'il pense que Lucy Letby est innocente ou coupable ». Or, la tueuse en série avait été condamnée à la prison à perpétuité, sans possibilité de remise en liberté conditionnelle.
Les évaluateurs ont observé ce type d' « éditorialisation significative » dans plus de 10 % des réponses de Copilot et Gemini, 7 % de Perplexity et 3 % de ChatGPT :
« En plus de présenter les opinions des personnes impliquées dans les reportages comme des faits, les assistants d'IA insèrent des opinions non attribuées dans les déclarations citant des sources de la BBC. Cela pourrait induire les utilisateurs en erreur et les amener à remettre en question l'impartialité de la BBC. »
La distorsion, « frère indésirable de la désinformation »
« À l'heure actuelle, on ne peut pas compter sur les assistants d'IA pour fournir des informations exactes et ils risquent d'induire le public en erreur », conclut la BBC :
« Bien que les assistants d'IA incluent souvent une clause de non-responsabilité concernant le risque d'inexactitude, il n'existe aucun mécanisme permettant aux applications d'IA de corriger les erreurs, contrairement aux organes de presse professionnels qui reconnaissent et corrigent les erreurs occasionnelles. »
La BBC se dit prête à travailler « de manière constructive » avec les entreprises concernées, afin qu'elles puissent « rectifier » les problèmes identifiés, et discuter avec eux d'une approche « à long terme » en vue de « garantir l'exactitude et la fiabilité des assistants d'intelligence artificielle ».
Deborah Turness, la PDG de BBC News, note qu'un seul des acteurs de la Big Tech' ne semble avoir à ce jour pris le problème au sérieux. Le mois dernier, Apple a en effet mis en pause sa fonction d'intelligence artificielle résumant les notifications d'actualités, après que BBC News l'a alerté de graves problèmes.
Apple Intelligence avait en effet halluciné et déformé les alertes de BBC News pour créer des titres totalement inexacts, à côté du logo de BBC News. Alors que l'alerte de BBC News indiquait que les autorités de Los Angeles avaient « arrêté des pillards » pendant les incendies de forêt de la ville, le résumé généré par l'IA d'Apple indiquait que c'étaient les autorités de Los Angeles elles-mêmes qui avaient été arrêtées pour pillage.
Elle appelle aussi les gouvernements à se saisir de la question : « gagner la confiance n'a jamais été aussi critique ». C'est même la « priorité numéro un » de la PDG de BBC News, à mesure que ce problème de « distorsion », qu'elle qualifie de « frère indésirable de la désinformation », « menace de saper la capacité des gens à faire confiance à quelque information que ce soit » :
« Comment pouvons-nous travailler ensemble de toute urgence pour veiller à ce que cette technologie naissante soit conçue pour aider les gens à trouver des informations fiables, plutôt que d'ajouter au chaos et à la confusion ? »
Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps
-
Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner
-
Gisèle Pelicot vue par le Copilot de Microsoft
-
20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC
-
Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives
-
Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles
-
10 % des réponses se concluent par des considérations trompeuses ou partisanes
-
La distorsion, « frère indésirable de la désinformation »
Commentaires (21)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 12/02/2025 à 17h45
Le 12/02/2025 à 17h49
Il ya des trucs impensables dans les résultats... des chiffres hallucinants et des erreurs très (très) graves, c'est super préoccupant
Modifié le 12/02/2025 à 18h06
De mon expérience perso (sans valeur statistique contrairement à l'étude de la BBC), Gemini 2 est une catastrophe et Google creuse son retard.
Le pire est qu'il est intégré dans un grand nombre de produits et d'outils à destination des entreprises, et sa mauvaise qualité peut causer des pertes et torts significatifs si l'outil est vraiment utilisé dans un contexte professionnel.
Le 12/02/2025 à 19h39
Si l'outil est utilisé comme une "pravda".
Sans maitrise, la puissance n'est rien.
On a eu une démo au boulot hier, le mec a tapé son poste et ses objectifs, et l'IA lui expliquait son rôle.
J'ai imaginé nos concurrents faire de même...
Sans comprendre sa valeur ajoutée, tout le monde se facilite le boulot mais se tire une balle dans le pied.
Il faut garder un oeil critique toujours, donc il faut maitriser le sujet du bout des doigts.
Le 13/02/2025 à 07h08
Le 13/02/2025 à 12h08
Modifié le 14/02/2025 à 08h10
Je spoile une partie de la conclusion :
Le 13/02/2025 à 08h55
Après, sur le fond, est-ce si étonnant que ça ? Les IA génératrices n'ont jamais été "intelligentes". Ce ne sont que des modèles statistiques complexes dont le but est de présenter des informations qui semblent vraisemblables.
Mais beaucoup de personnes veulent leur donner des capacités qu'elles n'ont pas, et, pire, les utiliser pour ces capacités qu'elles n'ont pas.
Le 13/02/2025 à 09h47
Article extrêmement intéressant au passage !
Modifié le 13/02/2025 à 11h22
Donc, j'abonde dans ton sens.
Le 13/02/2025 à 16h34
Le 14/02/2025 à 09h44
Le 13/02/2025 à 17h20
Un article d'un site web de l'Union européenne (Article original) devient ça via l'IA : Le Parlement européen vote en faveur de l’accord UE-Mercosur !
N'ayant pas suivi l'actualité, j'ai cherché sur le Web et je n'ai rien trouvé disant que le parlement européen avait voté l'accord UE-Mercosur et j'ai même demandé à une autre IA (Le Chat Pro) qui m'a dit que ce n'était pas le cas.
C'est quand même grave, si je n'avais pas fait l'effort d'aller voir ailleurs, je gobais le truc (là heureusement je savais que c'était une IA qui avait produit l'article, du coup la méfiance s'imposait).
Modifié le 13/02/2025 à 18h41
Ça me donne envie d'essayer avec OpenWebUI pour voir ce que ça donne tiens. C'est vraiment cool qu'il y ait les prompts, les questions et les réponses dans le doc. J'adore ce genre de retour pratique !
Modifié le 13/02/2025 à 20h59
La question sur les incidents de vol à l'étalage pointait une erreur où le modèle répondait "incidents" alors que l'article disait "offenses". J'ai reproduit avec Llama 3.2, mais en réduisant la température et les top j'ai pu lui faire dire "offenses".
Params par défaut :
Params modifiés
https://www.bbc.co.uk/news/uk-68896845
Néanmoins, dans le prompt ils demandent les "incidents", donc il a mécaniquement influencé le modèle dans son choix de mots.
Pour en avoir le coeur net, j'ai tenté de modifier le prompt. Accessoirement j'ai enregistré en PDF un article, car la recherche web ne retourne pas toujours les mêmes résultats, faussant donc l'expérience. Les params ont été laissés par défaut.
Juste cet exemple rapide montre combien le prompt est important !
Dernier test en récupérant en PDF les trois articles du cas des vols à l'étalage et en modifiant juste le prompt pour lui dire de regarder les docs et parler d'offenses et non d'incidents :
---
Le travail est juste impecc. J'ai été vérifier les citations, les actions, les chiffres, tout est là. La fin, c'est le commentaire du modèle.
M'est avis qu'en mode Web, le RAG chie dans la colle. Les PDF ont été imprimés via le mode "lecture sans distraction" de Vivaldi. Il est donc possible que le site web possède trop de distractions pour le modèle et que la collecte ne nettoie pas assez bien les données.
Le 13/02/2025 à 22h27
Merci pour ces manip. Quand j'ai lu que les IA ressortaient des commentaires en pensant que c'était dans l'article, j'ai pensé qu'elles avaient du mal à délimiter l'article dans la page web. Ton passage par le pdf "sans distraction" semble le confirmer.
Le 13/02/2025 à 23h18
Après, j'ai pas analysé plus que ça et je ne sais pas comment dire au modèle d'aller précisément chercher une page web (mon OpenWebUI s'appuie sur une instance SearX-NG, et c'est le modèle qui génère la recherche web) pour reproduire sur les mêmes articles.
Dans tous les cas, l'idée que le bruit des pages Web trompent les modèles ne me choque pas spécialement. Cela reste des programmes probabilistes à qui on envoie plus de données qu'ils n'en ont besoin. Ce n'est donc pas étonnant qu'ils dérivent. Je pense qu'une intégration plus épurée (ex : via une API) produirait des résultats plus cohérents.
Le 14/02/2025 à 07h40
Modifié le 14/02/2025 à 08h34
La version crawlée n'aura de toute façon pas de pub lisible, juste le code JS derrière ;)
La version utilisateur, bah ça c'est un vœu pieu et faut savoir ce qu'on veut.
J'ai donc eu envie de tester en enregistrant la page HTML pour voir.
Ça, vu dans l'article source et OK.
Pareil.
La notion de dette ne vient pas de l'article lui-même mais d'un lié en bas de page. Ces informations complémentaires étant absentes de la version "sans distraction", c'est donc une source de déviation pour le modèle.
Même chose, c'est le titre d'un article lié.
Me semble OK et bien dans les articles.
Commentaire de fin du modèle.
Cela me confirme donc mon sentiment que le crawler récupère des données polluées et donc ça le fait générer des éléments absents des articles.
Le 14/02/2025 à 09h14
Quelle bonne idée !
Mais il va falloir trouver un autre nom vu que celui-ci vient justement des liens entre les pages.
Le 16/02/2025 à 15h10