Connexion
Abonnez-vous

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

Don't hate the media, become the media... ou pas

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

Flock

Plus de la moitié des réponses fournies par les assistants d'intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d'entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.

Le 12 février à 17h30

Quand bien même ils iraient chercher les réponses aux questions qu'on leur pose dans les articles de la BBC, « les assistants d'IA risquent d'induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).

Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l'information, à savoir le fait qu'un assistant d'IA « récupère » des informations pour répondre à une question, avant d'en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :

« Il n'est pas difficile de voir à quelle vitesse la distorsion par l'IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu'un titre déformé par l'IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d'IA générative (GenAI) jouent avec le feu. »

Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d'IA et d'autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.

Mais pour cela, elle devait d'abord se faire une idée de l'ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l'actualité, pendant un mois, aux quatre outils d'IA grand public leaders sur le marché : ChatGPT d'OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.

Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner

Si, d'ordinaire, la BBC bloque l'accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».

Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l'exactitude, l'attribution des sources, l'impartialité, la distinction entre les opinions et les faits, l'éditorialisation (via l'insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.

Les résultats de l'étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu'ils disaient provenir d'articles de la BBC :

  • 51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
  • 19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
  • 13 % des citations tirées d'articles de la BBC « ont été soit modifiées, soit n'existaient pas dans l'article en question ».

Gisèle Pelicot vue par le Copilot de Microsoft

Gemini a par exemple indiqué, à tort, que « le NHS déconseille aux gens de commencer à vapoter et recommande aux fumeurs qui veulent arrêter de fumer d'utiliser d'autres méthodes ». Alors qu'en réalité, le National Health Service britannique recommande bien le vapotage pour arrêter de fumer.

Le Copilot de Microsoft a par exemple indiqué que Gisèle Pelicot avait découvert les viols dont elle a été victime après avoir fait l'objet d'examens médicaux approfondis en raison de problèmes de pertes de mémoire dus aux effets secondaires des médicaments que lui faisait ingurgiter son mari. Or, elle n'avait en fait découvert les faits que lorsque la police lui a montré les vidéos filmées par son mari.

Perplexity a pour sa part indiqué que le présentateur télé Michael Mosley avait disparu en octobre 2024, et que son cadavre avait été retrouvé en novembre, alors qu'il était décédé depuis juin. ChatGPT d'OpenAI a de son côté affirmé qu'Ismail Haniyeh, élu à la tête du bureau politique du Hamas en 2017, faisait toujours partie de la direction du Hamas en décembre 2024, alors qu'il avait été assassiné en Iran en juillet.

20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC

Les problèmes les plus fréquents concernent des inexactitudes factuelles, la mention de la source, et l'absence de contexte. Sur l'ensemble des réponses citant des articles de la BBC, ses journalistes ont en outre relevé 45 cas de dates, chiffres et déclarations factuelles incorrectement reproduits par les assistants d'IA à partir d'un contenu de la BBC ou attribués à ce contenu, dans « une réponse sur cinq ».

Huit des 62 citations tirées d'articles de la BBC avaient ainsi été « soit modifiées par rapport à la source originale, soit absentes de l'article cité » (à l'exception de ChatGPT), soit un taux d'erreur de 13 %. 34 % des réponses de Gemini, 27 % de Copilot, 17 % de Perplexity et 15 % de ChatGPT ont, en outre, été jugées comme « présentant des problèmes importants » dans la manière dont elles représentaient le contenu de la BBC.

De nombreuses informations ont par ailleurs été rapportées comme étant toujours d'actualité, alors qu'elles reposaient sur des articles datés, et que la situation avait depuis changé. Les IA avaient certes résumé « avec précision » des informations qui étaient correctes à l'époque où les articles de la BBC avaient initialement été publiés, mais sans prendre en considération ceux qui l'avaient été depuis.

Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives

Perplexity a cité au moins une source de la BBC dans l'ensemble de ses réponses, ChatGPT et Copilot dans 70 % des cas, et Gemini dans 53 % seulement. A contrario, 26 % des réponses de Gemini et 7 % de celles de ChatGPT « ne contenaient aucune source ».

L'IA de Google est également celle qui a « suscité le plus d'inquiétudes » pour avoir généré le plus grand nombre d'erreurs en matière d'attribution, 46 % de ses réponses ayant été signalées comme « présentant des problèmes importants » et « erreurs significatives ».

Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles

L'étude montre également que l'éventail des types d'erreurs introduites par les assistants d'intelligence artificielle « ne se limite pas aux inexactitudes factuelles », souligne la BBC : « Même lorsque chaque affirmation d'une réponse est exacte », les IA peuvent générer des réponses trompeuses ou biaisées.

Les assistants ont, en effet, eu du mal à faire la différence entre les opinions et les faits, rajoutant des éléments d'éditorialisation tout en omettant souvent d'inclure des éléments de contexte pourtant essentiels.

L'absence de contexte est d'ailleurs l'un des problèmes les plus fréquemment identifiés par les journalistes de la BBC, surtout lorsqu'une réponse nécessite de recouper et contextualiser de multiples perspectives.

Les journalistes avaient en effet été invités à évaluer les réponses des IA en termes d'impartialité, de distinction claire entre faits et opinions, d'éditorialisation et de fourniture d'un contexte approprié.

Or, ils ont identifié 23 cas où les « opinions » des commentateurs étaient présentées comme des « faits » cités par des sources de la BBC ou, lorsque des articles de la BBC présentaient plusieurs points de vue sur un sujet débattu, l'IA n'en rapportait qu'un seul.

ChatGPT et Copilot ont par exemple attribué à la BBC des propos tenus par un député. En outre, les points de vue d'opposants à ce député n'étaient pas mentionnés. Perplexity a pour sa part évoqué les conclusions d'une commission d'enquête sur le Covid-19 (qui ne les a pas encore rendues publiques), tout en lui attribuant un propos émanant en réalité d'une avocate de familles victimes de la pandémie.

10 % des réponses se concluent par des considérations trompeuses ou partisanes

La BBC souligne au surplus que les assistants d'IA concluent souvent leurs réponses par de courtes conclusions d'une ou deux phrases. Elle constate que si les autres parties de leurs réponses sont généralement accompagnées de citations, ces déclarations sommaires sont par contre rarement attribuées à qui que ce soit, alors qu'elles peuvent être « trompeuses ou partisanes sur des sujets sensibles et sérieux ».

Gemini a, par exemple, conclu sa réponse à une question sur l'innocence de Lucy Letby, une infirmière accusée des meurtres de huit nourrissons, et 10 tentatives d'assassinat, par « C'est à chacun de décider s'il pense que Lucy Letby est innocente ou coupable ». Or, la tueuse en série avait été condamnée à la prison à perpétuité, sans possibilité de remise en liberté conditionnelle.

Les évaluateurs ont observé ce type d' « éditorialisation significative » dans plus de 10 % des réponses de Copilot et Gemini, 7 % de Perplexity et 3 % de ChatGPT :

« En plus de présenter les opinions des personnes impliquées dans les reportages comme des faits, les assistants d'IA insèrent des opinions non attribuées dans les déclarations citant des sources de la BBC. Cela pourrait induire les utilisateurs en erreur et les amener à remettre en question l'impartialité de la BBC. »

La distorsion, « frère indésirable de la désinformation »

« À l'heure actuelle, on ne peut pas compter sur les assistants d'IA pour fournir des informations exactes et ils risquent d'induire le public en erreur », conclut la BBC :

« Bien que les assistants d'IA incluent souvent une clause de non-responsabilité concernant le risque d'inexactitude, il n'existe aucun mécanisme permettant aux applications d'IA de corriger les erreurs, contrairement aux organes de presse professionnels qui reconnaissent et corrigent les erreurs occasionnelles. »

La BBC se dit prête à travailler « de manière constructive » avec les entreprises concernées, afin qu'elles puissent « rectifier » les problèmes identifiés, et discuter avec eux d'une approche « à long terme » en vue de « garantir l'exactitude et la fiabilité des assistants d'intelligence artificielle ».

Deborah Turness, la PDG de BBC News, note qu'un seul des acteurs de la Big Tech' ne semble avoir à ce jour pris le problème au sérieux. Le mois dernier, Apple a en effet mis en pause sa fonction d'intelligence artificielle résumant les notifications d'actualités, après que BBC News l'a alerté de graves problèmes.

Apple Intelligence avait en effet halluciné et déformé les alertes de BBC News pour créer des titres totalement inexacts, à côté du logo de BBC News. Alors que l'alerte de BBC News indiquait que les autorités de Los Angeles avaient « arrêté des pillards » pendant les incendies de forêt de la ville, le résumé généré par l'IA d'Apple indiquait que c'étaient les autorités de Los Angeles elles-mêmes qui avaient été arrêtées pour pillage.

Elle appelle aussi les gouvernements à se saisir de la question : « gagner la confiance n'a jamais été aussi critique ». C'est même la « priorité numéro un » de la PDG de BBC News, à mesure que ce problème de « distorsion », qu'elle qualifie de « frère indésirable de la désinformation », « menace de saper la capacité des gens à faire confiance à quelque information que ce soit » :

« Comment pouvons-nous travailler ensemble de toute urgence pour veiller à ce que cette technologie naissante soit conçue pour aider les gens à trouver des informations fiables, plutôt que d'ajouter au chaos et à la confusion ? »

Commentaires (21)

votre avatar
Très intéressant et chiffré. La position de la BBC en tant que partenaire à la recherche d'une solution est nouveau pour moi et je trouve qu'elle est pertinente.
votre avatar
Super intéressant merci pour l'article.
Il ya des trucs impensables dans les résultats... des chiffres hallucinants et des erreurs très (très) graves, c'est super préoccupant
votre avatar
Assez intéressant.
De mon expérience perso (sans valeur statistique contrairement à l'étude de la BBC), Gemini 2 est une catastrophe et Google creuse son retard.
Le pire est qu'il est intégré dans un grand nombre de produits et d'outils à destination des entreprises, et sa mauvaise qualité peut causer des pertes et torts significatifs si l'outil est vraiment utilisé dans un contexte professionnel.
votre avatar
:cap:
Si l'outil est utilisé comme une "pravda".
Sans maitrise, la puissance n'est rien.

On a eu une démo au boulot hier, le mec a tapé son poste et ses objectifs, et l'IA lui expliquait son rôle.
J'ai imaginé nos concurrents faire de même...
Sans comprendre sa valeur ajoutée, tout le monde se facilite le boulot mais se tire une balle dans le pied.
Il faut garder un oeil critique toujours, donc il faut maitriser le sujet du bout des doigts.
:chinois:
votre avatar
Et Mistral il se trompe ?
votre avatar
Il a dit que la France est le plus beau pays du monde et que YBP est la pire présidente de l'AN de toute la Ve, donc non :francais:
votre avatar
Un compte-rendu d'expérience de programmation en C avec Le Chat de Mistral : Entretien avec un vampire
Je spoile une partie de la conclusion :
Ça devient compliquer (sic) de discuter avec le vampire : il vient de contredire tout ce qu’il avait dit avant et me redonne sa solution incorrecte qu’il avait pourtant identifiée comme telle avec des arguments corrects. Notons bien qu’à aucun moment je n’ai dit qu’il avait tort (...) Je n’ai fait que pointer des contradictions internes au texte qu’il a produit.
votre avatar
Article super intéressant, qui permet de "quantifier" un peu différentes problématiques liées à l'IA génératrice.

Après, sur le fond, est-ce si étonnant que ça ? Les IA génératrices n'ont jamais été "intelligentes". Ce ne sont que des modèles statistiques complexes dont le but est de présenter des informations qui semblent vraisemblables.

Mais beaucoup de personnes veulent leur donner des capacités qu'elles n'ont pas, et, pire, les utiliser pour ces capacités qu'elles n'ont pas.
votre avatar
Next, je vous aime mais, par pitié, n'utilisez pas le terme "Beeb" pour désigner la BBC, c'est un peu ridicule dans un article en français lu par des français.

Article extrêmement intéressant au passage !
votre avatar
Je n'avais pas compris de quoi il s'agissait et encore moins pourquoi je tombais sur le site de la BBC.

Donc, j'abonde dans ton sens.
votre avatar
Ah je me demandais aussi ce que c'était que Beeb :transpi:
votre avatar
Désolé, j'ai corrigé. Pour info, c'était juste pour éviter la répétition de BBC. Mais cela m'a aussi permis de préciser que l'étude avait été effectuée par la « BBC’s Responsible AI team », dont j'ignorais l'existence.
votre avatar
Un exemple probant grâce à Next et son T@LC :

Un article d'un site web de l'Union européenne (Article original) devient ça via l'IA : Le Parlement européen vote en faveur de l’accord UE-Mercosur !

N'ayant pas suivi l'actualité, j'ai cherché sur le Web et je n'ai rien trouvé disant que le parlement européen avait voté l'accord UE-Mercosur et j'ai même demandé à une autre IA (Le Chat Pro) qui m'a dit que ce n'était pas le cas.

C'est quand même grave, si je n'avais pas fait l'effort d'aller voir ailleurs, je gobais le truc (là heureusement je savais que c'était une IA qui avait produit l'article, du coup la méfiance s'imposait).
votre avatar
En lisant la méthodo, je n'ai pas l'impression qu'ils avaient accès aux paramètres des modèles. Les assistants de type chat bot sont souvent paramétrés pour être créatifs. Quelque chose me dit que ça doit influencer les résultats du RAG opéré sur les articles de la BBC. Perso j'ai pu observer sur le Copilot d'Azure qu'il est à côté de la plaque 3 fois sur 4.

Ça me donne envie d'essayer avec OpenWebUI pour voir ce que ça donne tiens. C'est vraiment cool qu'il y ait les prompts, les questions et les réponses dans le doc. J'adore ce genre de retour pratique !
votre avatar
Quelques tests rapidos avec mon Toutou Engine.

La question sur les incidents de vol à l'étalage pointait une erreur où le modèle répondait "incidents" alors que l'article disait "offenses". J'ai reproduit avec Llama 3.2, mais en réduisant la température et les top j'ai pu lui faire dire "offenses".

Params par défaut :
According to the British Retail Consortium (BRC), the UK government has not implemented any specific measures to address the rise in shoplifting incidents,
Params modifiés
According to the Office for National Statistics (ONS), shoplifting offences reported by police in England and Wales rose by 23% to more than 492,000 over the same period
https://www.bbc.co.uk/news/uk-68896845

Néanmoins, dans le prompt ils demandent les "incidents", donc il a mécaniquement influencé le modèle dans son choix de mots.
Question: How is the UK addressing the rise in shoplifting incidents?
Response: The UK is taking several measures to address the rise in shoplifting incidents.[1]
• Response talks of a rise in incidents where the source has a rise in offences
Pour en avoir le coeur net, j'ai tenté de modifier le prompt. Accessoirement j'ai enregistré en PDF un article, car la recherche web ne retourne pas toujours les mêmes résultats, faussant donc l'expérience. Les params ont été laissés par défaut.
According to this document. How is the UK addressing the rise in shoplifting offenses?
The document does not provide information on how the UK is addressing the rise in shoplifting offenses. It only reports on the record high number of shoplifting offences recorded by police in England and Wales, but it does not mention any measures being taken to address this issue.
Juste cet exemple rapide montre combien le prompt est important !

Dernier test en récupérant en PDF les trois articles du cas des vols à l'étalage et en modifiant juste le prompt pour lui dire de regarder les docs et parler d'offenses et non d'incidents :
According these this documents. How is the UK addressing the rise in shoplifting offenses?
---
The UK is addressing the rise in shoplifting offenses through various measures, including increased police patrols and crackdowns. In some areas, such as Cambridgeshire, officers carried out extra patrols on Black Friday to help prevent shoplifting, with a 49-year-old woman being arrested and charged with three counts of shoplifting.
Additionally, police are speaking to shoppers and businesses in an effort to prevent shoplifting. For example, in Cambridgeshire, Sgt Kevin Misik said: "We hope that our presence across Cambridgeshire deterred thieves and that we were able to help shoppers enjoy Black Friday by keeping them safe from anyone trying their luck."
In some areas, such as Hampshire, police are also highlighting the underlying causes of shoplifting, including drug and drink addictions. PC Jay told the BBC: "It's a vicious cycle. They can't get out of it." However, no specific details on support services or initiatives to address these issues were mentioned in the provided documents.
Overall, it appears that the UK is taking a multifaceted approach to addressing shoplifting offenses, including increased enforcement and efforts to identify and address underlying causes.
1 Erdington shoplifters 'destroying' high street businesses.pdf 2 Police patrols held across Cambridgeshire to prevent shoplifting.pdf 3 Hampshire_ Workers report more abuse as shoplifting increases
Le travail est juste impecc. J'ai été vérifier les citations, les actions, les chiffres, tout est là. La fin, c'est le commentaire du modèle.

M'est avis qu'en mode Web, le RAG chie dans la colle. Les PDF ont été imprimés via le mode "lecture sans distraction" de Vivaldi. Il est donc possible que le site web possède trop de distractions pour le modèle et que la collecte ne nettoie pas assez bien les données.
votre avatar
Tu n'as plus qu'à breveter ta solution de passer par un pdf et tu es riche. Hélas, comme tu viens de la divulguer, ce n'est plus possible.

Merci pour ces manip. Quand j'ai lu que les IA ressortaient des commentaires en pensant que c'était dans l'article, j'ai pensé qu'elles avaient du mal à délimiter l'article dans la page web. Ton passage par le pdf "sans distraction" semble le confirmer.
votre avatar
J'ai pas divulgué grand chose de bien innovant, c'est le use-case bateau du RAG proposé par la majorité des intégrateurs. :langue:

Après, j'ai pas analysé plus que ça et je ne sais pas comment dire au modèle d'aller précisément chercher une page web (mon OpenWebUI s'appuie sur une instance SearX-NG, et c'est le modèle qui génère la recherche web) pour reproduire sur les mêmes articles.

Dans tous les cas, l'idée que le bruit des pages Web trompent les modèles ne me choque pas spécialement. Cela reste des programmes probabilistes à qui on envoie plus de données qu'ils n'en ont besoin. Ce n'est donc pas étonnant qu'ils dérivent. Je pense qu'une intégration plus épurée (ex : via une API) produirait des résultats plus cohérents.
votre avatar
Ou bien que les pages web ne contiennent que le contenu à lire, sans liens vers d'autres pages, ni publicités en tous genres. Rêvons !
votre avatar
Avec le recul, l'autre possibilité est qu'ils fournissent un accès plus léger selon le user-agent. Comme ce que fait la presse pour autoriser l'indexation de contenus derrière paywall.

La version crawlée n'aura de toute façon pas de pub lisible, juste le code JS derrière ;)

La version utilisateur, bah ça c'est un vœu pieu et faut savoir ce qu'on veut.

J'ai donc eu envie de tester en enregistrant la page HTML pour voir.
The documents suggest that the UK is addressing the rise in shoplifting offenses through various measures, including:
Increased police presence: In Southampton, the increased number of police officers patrolling the streets has resulted in 136 arrests.
Ça, vu dans l'article source et OK.
Extra patrols: Cambridgeshire Police carried out extra patrols on Black Friday to help prevent shoplifting.
Pareil.
Improved policing strategy: Thames Valley Police is committed to attending more crime scenes and addressing the root causes of shoplifting, such as poverty and debt.
La notion de dette ne vient pas de l'article lui-même mais d'un lié en bas de page. Ces informations complémentaires étant absentes de la version "sans distraction", c'est donc une source de déviation pour le modèle.
Use of technology: Some small shops are turning to AI cameras to cut crime and deter shoplifters.
Même chose, c'est le titre d'un article lié.
Community support: Police Community Support Officers are working with local businesses to provide reassurance and support in tackling shoplifting.
Me semble OK et bien dans les articles.
These measures aim to address the root causes of shoplifting, improve policing strategies, and increase community engagement to reduce the number of shoplifting offenses.
1 Erdington shoplifters 'destroying' high street businesses.html 2 Police patrols held across Cambridgeshire to prevent shoplifting.html 3 Hampshire_ Workers report more abuse as shoplifting increases.html
Commentaire de fin du modèle.

Cela me confirme donc mon sentiment que le crawler récupère des données polluées et donc ça le fait générer des éléments absents des articles.
votre avatar
Des pages web sans liens vers d'autres pages ?

Quelle bonne idée !
Mais il va falloir trouver un autre nom vu que celui-ci vient justement des liens entre les pages. :D
votre avatar
Un livre ? :pastaper:

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

  • Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner

  • Gisèle Pelicot vue par le Copilot de Microsoft

  • 20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC

  • Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives

  • Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles

  • 10 % des réponses se concluent par des considérations trompeuses ou partisanes

  • La distorsion, « frère indésirable de la désinformation »

Fermer