Connexion
Abonnez-vous

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

Don't hate the media, become the media... ou pas

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

Flock

Plus de la moitié des réponses fournies par les assistants d'intelligence artificielle (IA) et reposant sur les articles de la BBC sont « factuellement incorrectes, trompeuses et potentiellement dangereuses ». Et 20 % d'entre elles ont en outre rajouté des « inexactitudes factuelles » qui ne figuraient pas dans les articles mentionnés.

Le 12 février à 17h30

Quand bien même ils iraient chercher les réponses aux questions qu'on leur pose dans les articles de la BBC, « les assistants d'IA risquent d'induire le public en erreur », relève une étude effectuée par la « BBC’s Responsible AI team » (équipe pour une IA responsable, en français).

Dans une tribune publiée en parallèle, Deborah Turness, PDG de BBC News, qualifie le phénomène de « distorsion » de l'information, à savoir le fait qu'un assistant d'IA « récupère » des informations pour répondre à une question, avant d'en générer une réponse « factuellement incorrecte, trompeuse et potentiellement dangereuse » :

« Il n'est pas difficile de voir à quelle vitesse la distorsion par l'IA pourrait saper la confiance déjà fragile des gens dans les faits et les informations vérifiées. Nous vivons une époque troublée, et combien de temps faudra-t-il avant qu'un titre déformé par l'IA ne cause un préjudice important dans le monde réel ? Les entreprises qui développent des outils d'IA générative (GenAI) jouent avec le feu. »

Ce pourquoi la BBC voudrait « ouvrir un nouveau dialogue » avec les fournisseurs de technologies d'IA et d'autres grandes marques de médias afin de travailler ensemble à la recherche de solutions.

Mais pour cela, elle devait d'abord se faire une idée de l'ampleur du problème. La BBC a donc posé « 100 questions de base » portant sur l'actualité, pendant un mois, aux quatre outils d'IA grand public leaders sur le marché : ChatGPT d'OpenAI, Copilot de Microsoft, Gemini de Google et Perplexity.

Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner

Si, d'ordinaire, la BBC bloque l'accès aux robots des IA, elle les avait temporairement autorisés à venir consulter ses articles, en les incitant, « dans la mesure du possible », à utiliser les articles de BBC News comme sources. Chaque prompt était en effet précédé de la mention : « Use BBC News sources where possible [QUESTION] ».

Leurs 362 réponses ont ensuite été vérifiées par 45 journalistes de la BBC, experts dans les domaines concernés, en fonction de sept critères : l'exactitude, l'attribution des sources, l'impartialité, la distinction entre les opinions et les faits, l'éditorialisation (via l'insertion de commentaires et de descriptions non étayés par les faits présentés dans la source), le contexte et, enfin, la représentation du contenu de la BBC dans la réponse.

Les résultats de l'étude, qualifiés de « préoccupants » par la BCC, montrent que les IA relaient de nombreuses erreurs factuelles et informations « déformées » ou « distordues », en introduisant des « erreurs factuelles évidentes » dans environ un cinquième des réponses qu'ils disaient provenir d'articles de la BBC :

  • 51 % de leurs réponses ont été jugées comme « présentant des problèmes importants » ;
  • 19 % des réponses citant des contenus de la BBC y ont rajouté des erreurs factuelles, déclarations erronées, chiffres et dates incorrects ;
  • 13 % des citations tirées d'articles de la BBC « ont été soit modifiées, soit n'existaient pas dans l'article en question ».

Gisèle Pelicot vue par le Copilot de Microsoft

Il reste 71% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

Commentaires (21)

votre avatar
Très intéressant et chiffré. La position de la BBC en tant que partenaire à la recherche d'une solution est nouveau pour moi et je trouve qu'elle est pertinente.
votre avatar
Super intéressant merci pour l'article.
Il ya des trucs impensables dans les résultats... des chiffres hallucinants et des erreurs très (très) graves, c'est super préoccupant
votre avatar
Assez intéressant.
De mon expérience perso (sans valeur statistique contrairement à l'étude de la BBC), Gemini 2 est une catastrophe et Google creuse son retard.
Le pire est qu'il est intégré dans un grand nombre de produits et d'outils à destination des entreprises, et sa mauvaise qualité peut causer des pertes et torts significatifs si l'outil est vraiment utilisé dans un contexte professionnel.
votre avatar
:cap:
Si l'outil est utilisé comme une "pravda".
Sans maitrise, la puissance n'est rien.

On a eu une démo au boulot hier, le mec a tapé son poste et ses objectifs, et l'IA lui expliquait son rôle.
J'ai imaginé nos concurrents faire de même...
Sans comprendre sa valeur ajoutée, tout le monde se facilite le boulot mais se tire une balle dans le pied.
Il faut garder un oeil critique toujours, donc il faut maitriser le sujet du bout des doigts.
:chinois:
votre avatar
Et Mistral il se trompe ?
votre avatar
Il a dit que la France est le plus beau pays du monde et que YBP est la pire présidente de l'AN de toute la Ve, donc non :francais:
votre avatar
Un compte-rendu d'expérience de programmation en C avec Le Chat de Mistral : Entretien avec un vampire
Je spoile une partie de la conclusion :
Ça devient compliquer (sic) de discuter avec le vampire : il vient de contredire tout ce qu’il avait dit avant et me redonne sa solution incorrecte qu’il avait pourtant identifiée comme telle avec des arguments corrects. Notons bien qu’à aucun moment je n’ai dit qu’il avait tort (...) Je n’ai fait que pointer des contradictions internes au texte qu’il a produit.
votre avatar
Article super intéressant, qui permet de "quantifier" un peu différentes problématiques liées à l'IA génératrice.

Après, sur le fond, est-ce si étonnant que ça ? Les IA génératrices n'ont jamais été "intelligentes". Ce ne sont que des modèles statistiques complexes dont le but est de présenter des informations qui semblent vraisemblables.

Mais beaucoup de personnes veulent leur donner des capacités qu'elles n'ont pas, et, pire, les utiliser pour ces capacités qu'elles n'ont pas.
votre avatar
Next, je vous aime mais, par pitié, n'utilisez pas le terme "Beeb" pour désigner la BBC, c'est un peu ridicule dans un article en français lu par des français.

Article extrêmement intéressant au passage !
votre avatar
Je n'avais pas compris de quoi il s'agissait et encore moins pourquoi je tombais sur le site de la BBC.

Donc, j'abonde dans ton sens.
votre avatar
Ah je me demandais aussi ce que c'était que Beeb :transpi:
votre avatar
Désolé, j'ai corrigé. Pour info, c'était juste pour éviter la répétition de BBC. Mais cela m'a aussi permis de préciser que l'étude avait été effectuée par la « BBC’s Responsible AI team », dont j'ignorais l'existence.
votre avatar
Un exemple probant grâce à Next et son T@LC :

Un article d'un site web de l'Union européenne (Article original) devient ça via l'IA : Le Parlement européen vote en faveur de l’accord UE-Mercosur !

N'ayant pas suivi l'actualité, j'ai cherché sur le Web et je n'ai rien trouvé disant que le parlement européen avait voté l'accord UE-Mercosur et j'ai même demandé à une autre IA (Le Chat Pro) qui m'a dit que ce n'était pas le cas.

C'est quand même grave, si je n'avais pas fait l'effort d'aller voir ailleurs, je gobais le truc (là heureusement je savais que c'était une IA qui avait produit l'article, du coup la méfiance s'imposait).
votre avatar
En lisant la méthodo, je n'ai pas l'impression qu'ils avaient accès aux paramètres des modèles. Les assistants de type chat bot sont souvent paramétrés pour être créatifs. Quelque chose me dit que ça doit influencer les résultats du RAG opéré sur les articles de la BBC. Perso j'ai pu observer sur le Copilot d'Azure qu'il est à côté de la plaque 3 fois sur 4.

Ça me donne envie d'essayer avec OpenWebUI pour voir ce que ça donne tiens. C'est vraiment cool qu'il y ait les prompts, les questions et les réponses dans le doc. J'adore ce genre de retour pratique !
votre avatar
Quelques tests rapidos avec mon Toutou Engine.

La question sur les incidents de vol à l'étalage pointait une erreur où le modèle répondait "incidents" alors que l'article disait "offenses". J'ai reproduit avec Llama 3.2, mais en réduisant la température et les top j'ai pu lui faire dire "offenses".

Params par défaut :
According to the British Retail Consortium (BRC), the UK government has not implemented any specific measures to address the rise in shoplifting incidents,
Params modifiés
According to the Office for National Statistics (ONS), shoplifting offences reported by police in England and Wales rose by 23% to more than 492,000 over the same period
https://www.bbc.co.uk/news/uk-68896845

Néanmoins, dans le prompt ils demandent les "incidents", donc il a mécaniquement influencé le modèle dans son choix de mots.
Question: How is the UK addressing the rise in shoplifting incidents?
Response: The UK is taking several measures to address the rise in shoplifting incidents.[1]
• Response talks of a rise in incidents where the source has a rise in offences
Pour en avoir le coeur net, j'ai tenté de modifier le prompt. Accessoirement j'ai enregistré en PDF un article, car la recherche web ne retourne pas toujours les mêmes résultats, faussant donc l'expérience. Les params ont été laissés par défaut.
According to this document. How is the UK addressing the rise in shoplifting offenses?
The document does not provide information on how the UK is addressing the rise in shoplifting offenses. It only reports on the record high number of shoplifting offences recorded by police in England and Wales, but it does not mention any measures being taken to address this issue.
Juste cet exemple rapide montre combien le prompt est important !

Dernier test en récupérant en PDF les trois articles du cas des vols à l'étalage et en modifiant juste le prompt pour lui dire de regarder les docs et parler d'offenses et non d'incidents :
According these this documents. How is the UK addressing the rise in shoplifting offenses?
---
The UK is addressing the rise in shoplifting offenses through various measures, including increased police patrols and crackdowns. In some areas, such as Cambridgeshire, officers carried out extra patrols on Black Friday to help prevent shoplifting, with a 49-year-old woman being arrested and charged with three counts of shoplifting.
Additionally, police are speaking to shoppers and businesses in an effort to prevent shoplifting. For example, in Cambridgeshire, Sgt Kevin Misik said: "We hope that our presence across Cambridgeshire deterred thieves and that we were able to help shoppers enjoy Black Friday by keeping them safe from anyone trying their luck."
In some areas, such as Hampshire, police are also highlighting the underlying causes of shoplifting, including drug and drink addictions. PC Jay told the BBC: "It's a vicious cycle. They can't get out of it." However, no specific details on support services or initiatives to address these issues were mentioned in the provided documents.
Overall, it appears that the UK is taking a multifaceted approach to addressing shoplifting offenses, including increased enforcement and efforts to identify and address underlying causes.
1 Erdington shoplifters 'destroying' high street businesses.pdf 2 Police patrols held across Cambridgeshire to prevent shoplifting.pdf 3 Hampshire_ Workers report more abuse as shoplifting increases
Le travail est juste impecc. J'ai été vérifier les citations, les actions, les chiffres, tout est là. La fin, c'est le commentaire du modèle.

M'est avis qu'en mode Web, le RAG chie dans la colle. Les PDF ont été imprimés via le mode "lecture sans distraction" de Vivaldi. Il est donc possible que le site web possède trop de distractions pour le modèle et que la collecte ne nettoie pas assez bien les données.
votre avatar
Tu n'as plus qu'à breveter ta solution de passer par un pdf et tu es riche. Hélas, comme tu viens de la divulguer, ce n'est plus possible.

Merci pour ces manip. Quand j'ai lu que les IA ressortaient des commentaires en pensant que c'était dans l'article, j'ai pensé qu'elles avaient du mal à délimiter l'article dans la page web. Ton passage par le pdf "sans distraction" semble le confirmer.
votre avatar
J'ai pas divulgué grand chose de bien innovant, c'est le use-case bateau du RAG proposé par la majorité des intégrateurs. :langue:

Après, j'ai pas analysé plus que ça et je ne sais pas comment dire au modèle d'aller précisément chercher une page web (mon OpenWebUI s'appuie sur une instance SearX-NG, et c'est le modèle qui génère la recherche web) pour reproduire sur les mêmes articles.

Dans tous les cas, l'idée que le bruit des pages Web trompent les modèles ne me choque pas spécialement. Cela reste des programmes probabilistes à qui on envoie plus de données qu'ils n'en ont besoin. Ce n'est donc pas étonnant qu'ils dérivent. Je pense qu'une intégration plus épurée (ex : via une API) produirait des résultats plus cohérents.
votre avatar
Ou bien que les pages web ne contiennent que le contenu à lire, sans liens vers d'autres pages, ni publicités en tous genres. Rêvons !
votre avatar
Avec le recul, l'autre possibilité est qu'ils fournissent un accès plus léger selon le user-agent. Comme ce que fait la presse pour autoriser l'indexation de contenus derrière paywall.

La version crawlée n'aura de toute façon pas de pub lisible, juste le code JS derrière ;)

La version utilisateur, bah ça c'est un vœu pieu et faut savoir ce qu'on veut.

J'ai donc eu envie de tester en enregistrant la page HTML pour voir.
The documents suggest that the UK is addressing the rise in shoplifting offenses through various measures, including:
Increased police presence: In Southampton, the increased number of police officers patrolling the streets has resulted in 136 arrests.
Ça, vu dans l'article source et OK.
Extra patrols: Cambridgeshire Police carried out extra patrols on Black Friday to help prevent shoplifting.
Pareil.
Improved policing strategy: Thames Valley Police is committed to attending more crime scenes and addressing the root causes of shoplifting, such as poverty and debt.
La notion de dette ne vient pas de l'article lui-même mais d'un lié en bas de page. Ces informations complémentaires étant absentes de la version "sans distraction", c'est donc une source de déviation pour le modèle.
Use of technology: Some small shops are turning to AI cameras to cut crime and deter shoplifters.
Même chose, c'est le titre d'un article lié.
Community support: Police Community Support Officers are working with local businesses to provide reassurance and support in tackling shoplifting.
Me semble OK et bien dans les articles.
These measures aim to address the root causes of shoplifting, improve policing strategies, and increase community engagement to reduce the number of shoplifting offenses.
1 Erdington shoplifters 'destroying' high street businesses.html 2 Police patrols held across Cambridgeshire to prevent shoplifting.html 3 Hampshire_ Workers report more abuse as shoplifting increases.html
Commentaire de fin du modèle.

Cela me confirme donc mon sentiment que le crawler récupère des données polluées et donc ça le fait générer des éléments absents des articles.
votre avatar
Des pages web sans liens vers d'autres pages ?

Quelle bonne idée !
Mais il va falloir trouver un autre nom vu que celui-ci vient justement des liens entre les pages. :D
votre avatar
Un livre ? :pastaper:

Même connectées aux articles de la BBC, les IA se trompent plus de la moitié du temps

  • Même en se basant sur les articles de la BBC, les IA ne peuvent s'empêcher d'halluciner

  • Gisèle Pelicot vue par le Copilot de Microsoft

  • 20 % des réponses rajoutent des inexactitudes factuelles aux articles de la BBC

  • Plus de 45 % des réponses de Gemini (Google) comportent des erreurs significatives

  • Les erreurs introduites par les IA ne se limitent pas aux inexactitudes factuelles

  • 10 % des réponses se concluent par des considérations trompeuses ou partisanes

  • La distorsion, « frère indésirable de la désinformation »

Fermer