Les gênantes hallucinations et fuites d’information de Q, le chatbot d’Amazon
Le 07 décembre 2023 à 06h58
2 min
IA et algorithmes
IA
La semaine dernière, Amazon a annoncé le lancement de son assistant Q, chatbot du même genre que ChatGPT dédié spécifiquement aux entreprises.
Mais, selon Plateformer, Q aurait de sérieux problèmes d'hallucinations et de fuites d'informations. Selon des documents internes à l'entreprise, obtenus par le média, l'assistant pourrait, entre autres, divulguer la localisation de datacenters d'AWS, des informations sur des programmes de réduction de l'entreprise ainsi que sur des fonctionnalités non encore commercialisées.
L'entreprise nie toute fuite de données confidentielles et minimise les retours négatifs de ses employés beta testeurs : « Certains employés font part de leurs commentaires par le biais de canaux internes et de systèmes de tickets, ce qui est une pratique courante chez Amazon [...] Aucun problème de sécurité n'a été identifié à la suite de ces commentaires. Nous apprécions tous les commentaires que nous avons déjà reçus et nous continuerons d'améliorer Q au fur et à mesure qu'il passera du statut de produit en avant-première à celui de produit disponible publiquement. »
Lors de la présentation de Q, Amazon insistait sur la mise en place de garde-fous qui seraient développés dans les prochains mois pour prévenir ce genre de fuites, justement.
Le 07 décembre 2023 à 06h58
Commentaires (4)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 07/12/2023 à 07h23
A chaud, à mes yeux, c'est un simple problème d'habilitation et de catégorisation de la donnée.
L'architecture générique proposée aujourd'hui montre généralement une faible place pour le modèle LLM sous-jacent. Il est principalement là pour comprendre, rechercher, et répondre à la requête. Derrière, c'est rien de plus qu'un application Web qui gère des habilitations utilisateur et lance des requêtes API basées sur ce que le modèle a besoin d'aller chercher comme info aux diverses sources documentaires.
Ces sources peuvent être variées : des API de référentiels de l'entreprise, des sources documentaires internes, externes, des bases de données, ou encore d'autres services d'IA tels que de l'OCR ou de la perception machine pour analyser un contenu.
Evidemment, je ne connais pas l'architecture interne d'Amazon, mais je doute qu'ils aient réinventé la roue. Donc je pense que c'est surtout un problème de filtrage et d'habilitations relative à qui a le droit de voir quoi. Le modèle en lui-même reste incapable de gérer tout ça, c'est qu'un gros index de connections entre mots et contextes.
En résumé : ça sent plus le défaut de jeunesse d'intégration qu'un défaut du modèle en lui-même. Sauf si le modèle a été entraîné avec des données confidentielles ou secrètes, ce qui dans ce cas est d'une idiotie sans nom.
A l'inverse, les réponses désagréables ou à risque, c'est plutôt du fine-tuning qui reste à finaliser. Après, OpenAI a sorti ChatGPT trop tôt, Google a sorti Bard trop tôt, Microsoft a sorti Bing Chat trop tôt, donc il fallait bien suivre la tendance. Mais ça reste un process long et itératif donc il est utopique d'imaginer un modèle parfaitement politiquement correct out-of-box. Comme un humain, il a besoin d'être éduqué si j'osais la comparaison.
Le 07/12/2023 à 10h00
Bref, ca peut être tout et n'importe quoi.
Le 07/12/2023 à 18h22
Le 07/12/2023 à 20h18