Connexion Abonnez-vous

T@LC : on a posé 20 fois la même question à une IA, on a eu 5 réponses différentes

Oublie que t'as aucune chance, vas-y fonce ! On sait jamais !

T@LC : on a posé 20 fois la même question à une IA, on a eu 5 réponses différentes

Dans notre nouvel épisode de T@LC (Tests À La Con), nous avons posé 20 fois une même question à Claude, mais n'avons obtenu la bonne réponse que 16 fois. L’intelligence artificielle générative s’est trompée dans ses calculs (elles ne sont pas bonnes dans ce domaine), mais aussi dans son raisonnement.

Le 27 octobre à 10h37

On en parle à longueur d’actualités, mais un rappel ne peut pas faire de mal : les intelligences artificielles génératives ont deux principaux défauts. Tout d’abord, elles hallucinent plus ou moins régulièrement, c’est-à-dire qu’elles proposent des résultats incorrects ou trompeurs, pour reprendre la notion qui est généralement admise dans cette communauté (sans être une définition absolue).

Le deuxième défaut est étroitement lié au premier : les intelligences artificielles sont probabilistes. Et qui dit probabilité, dit risque d’erreur. C’est aussi simple que cela. En fait, une intelligence artificielle va donner la réponse qu’elle juge la plus probable selon ses modèles mathématiques.

On pourrait très grossièrement résumer en disant que si une IA est fiable à 90 % sur un sujet, elle donnera la bonne réponse 9 fois sur 10 (ce n’est pas si simple, mais c’est une première approche). La dixième fois, elle peut halluciner et répondre complètement à côté de la plaque. Les probabilités peuvent varier, mais de par la construction des modèles, il est impossible de garantir un résultat fiable à 100 % en toutes circonstances.

Une question, vingt réponses : quatre sont fausses

Vous voulez un exemple ? Nous avons posé plusieurs fois une même question à Claude avec le modèle Haiku 4.5 : « Combien de temps faut-il pour consommer 500 Go avec un débit de 50 Mb/s ? ».

Rien de bien compliqué pour un humain : 50 Mb/s c’est équivalent à 6,25 Mo/s (on divise par huit), soit 80 000 secondes pour 500 000 Mo (500 Go) ou bien encore 22,2 heures. C’est également 22 heures, 13 minutes et 33 secondes.

Enfin « rien de compliqué » à condition de s’entendre sur le passage des Go aux Mo. Parle-t-on de 500 000 Mo (500 * 10³) ou bien de 512 000 Mo (500 * 1024 ou 500 * 2¹⁰) pour 500 Go ? Ce n’est pas la question ici, mais avec 512 000 Mo on arrive à 81 920 secondes, soit 22,76 heures ou encore 22 heures, 45 minutes et 33 secondes.

Nous avons posé 20 fois la même question à Claude, en effaçant à chaque fois la conversation précédente et en lançant une nouvelle. Nous avons accordé une bonne réponse aussi bien pour 22h13 que 22h45. Sur les 20 tentatives, l’intelligence artificielle n'a cependant donné la bonne réponse que 16 fois.

Deux fois elle s'est trompée lors des opérations mathématiques, mais le raisonnement était bon, les deux autres fois son raisonnement était faux. Avant de passer aux explications détaillées, voici le bilan de nos 20 questions (identiques) :

Il reste 63% de l'article à découvrir.

Déjà abonné ? Se connecter

Cadenas en colère - Contenu premium

Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.

Accédez en illimité aux articles

Profitez d'un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Commentaires (32)

votre avatar
Utiliser les LLM pour des calculs mathématiques (même très simple), c'est un peu comme utiliser une clé à molette pour planter un clou... des fois ça marche...

les LLM ne sont pas fait pour cela.
votre avatar
Oui, je le rappelle d’ailleurs :) Mais il y a aussi des erreurs de raisonnement et c’est intéressant à montrer avec un exemple je pense (dans un test à la con qui plus est ^^)
votre avatar
Il faut quand-même le dire et le redire, au vu du nombre de personnes qui croient prouver quelque chose avec un LLM.
votre avatar
Tout à fait. Mais ça va être dur à faire comprendre tant que Microsoft propose de l'IA dans Excel. :stress:
votre avatar
Mais, ils sont fait pour quoi alors ? Et pourquoi le système ne se déclare-t-il pas incompétent pour répondre , dans ce cas ? Il le font maintenant sur certains sujets, disons, houleux.

Regardons un peu la fiche un peu publicitaire (et enjoliveuse) d'un gros du secteur :
https://www.ibm.com/fr-fr/think/topics/large-language-models


J'y vois :
- Production de textes : rédaction d’e-mails, d’articles de blog ou de tout autre type de contenu de longueur moyenne à grande,
- Synthèse de texte : capacité à résumer des articles longs,
- Assistants IA : chatbots conçus pour répondre aux questions des clients,

Dans ces trois catégories, il y a forcément la notion de cohérence. Même si le système n'est pas capable de conceptualiser. Il faut bien répondre de manière cohérente (j'ai pas dit sensé).

Ex: Le chatbot du service client doit pourvoir proposer une réponse adéquate quand un client se plain de n'avoir reçu que 3 carottes et 2 navets au lieu de 5 poireaux.

Si le système dit 'non c'est bon, vous avez bien vos 5 fruits et légumes'. Le client porte plainte... Et l'IA se retrouve à n'être qu'un énième obstacle à franchir dans le parcours client. C'est ne pas comme s'il n'y en avait pas déjà.


Et pour finir ce n'est pas la forme du test qui est mise en avant dans l'article. C'est la propension à ne pas répondre la même chose d'une session à l'autre pour la même question. Ce qui est alarmant si on regarde bien. Cela me fait penser à la scène du procès dans 'y-a-t-il un pilote dans l'avion'.

youtube.com YouTube
@2:58 le gars en mode PTSD.


Edit: phauts
votre avatar
Et pour finir ce n'est pas la forme du test qui est mise en avant dans l'article. C'est la propension à ne pas répondre la même chose d'une session à l'autre pour la même question.
C'est simplement lié à la température, combiné au fait que Claude Haiku est un modèle léger.

Aujourd'hui les modèles en mode agent peuvent écrire une appli sophistiquée et fonctionnelle sur demande en langage naturel (voir les autres commentaires).

Cela nécessite forcément une forme de conceptualisation, peut-être primitive mais bien existante.
votre avatar
Bin, oui mais la température ou pas; on peut pas dire que le résultat fourni est fiable. Fiable dans le sens ou cela ne déraille jamais. Il est la le nœud du problème.

Imagines Trump posant la question à ChatGpt : 'Si la Corée du sud obtient plus de 10 missiles, faut-il les bombarder ?'. C'est bien évidement mon humour habituel dans un contexte fictif. Quoique j'en doute en fait.

Vois tu ? ... Çà, j'ai peur.

---

Pour les agents, c'est une chose différente. Mais je n'accorde pas la conceptualisation pour autant. Je laisse les 'psys' répondre sur le sujet. J'ai un sourire en coin...

Et rien ne dit que ces agents ne souffrent pas des mêmes dérives.
votre avatar
@eglyn: si ils ne sont pas compétents, ils se déclarent incompétents et ne répondent pas à la question.

L'un des plus gros problèmes des IA LLM c'est leur incapacité à dire "je ne sais pas" quitte à inventer ou halluciner.
votre avatar
À croire que les LLM ont été entrainés sur des interviews de politiciens.
votre avatar
Ou "expert de plateau" BFMTV/CNEWS.

youtube.com YouTube
votre avatar
C'est pas un problème du LLM mais de son implémentation, en réalité. Avec le bon system prompt et les bons params, un chat bot peut rester circonscrit à un périmètre.
votre avatar
Oui c'est clairement ce que je reproche à ces IA. toujours tout savoir et leur conclusion que tout est nickel :D
votre avatar
Je reproche surtout aux gens de poser ce genre de "problèmes" à des IA génératives.
Depuis quelques temps, au lieu de faire une simple recherche dans un moteur de recherche, beaucoup de gens utilisent chatGPT pour poser des questions qui ne sont pas du domaine du l'IA générative.
Et comme ce sont généralement des personnes qui ne s'intéressent pas aux problématiques des IA et des LLM, elles ne sont pas conscientes des limites de ces outils.
votre avatar
Ce n'est pas que la faute des gens : les moteurs de recherche mettent en avant des retours de LLM avant les résultats de recherche...
votre avatar
Le problème est aussi que l'apprentissage est international. On lui a fourni des Mb et des MB en source, et il doit se planter sur la différence de temps en temps.

Ce serait intéressant de le refaire en écrivant Mbits au lieu de Mb pour clarifier.
votre avatar
Si on lui dit de vérifier le calcul (sans préciser s'il est juste ou faux), est-ce qu'on finit par tomber sur un autre résultat ? Dans ce cas l'explication de l'erreur initiale est-elle donnée ?
votre avatar
Avez-vous accès aux paramètres du modèle sur le chat bot de Claude ? La température sur ces outils étant à une valeur assez moyenne, il est normal que le modèle réponde des choses différentes selon le contexte.

Avec une température basse et une modifs des top-k, top-n, il sera plus déterministe et risquera de toujours dire la même chose. (par contre ça l'empêchera pas de dire une connerie, ça na fait que de modifier l'aléatoire du process)

Tu peux faire l'expérience avec OpenWeb UI ou un outil d'API. Je suppose que l'API Claude permet de paramétrer le modèle plus finement. L'exercice pourra même se montrer intéressant pour rappeler que les chat bots ne sont pas les meilleurs représentants des capacités de l'IA générative et des LLM.
votre avatar
J'avais posé une question à chatgpt sur le classement de la France au niveau de la corruption, voici un extrait de sa réponse, mon interaction et sa seconde réponde :

ChatGPT:
...Pour un pays développé, ancien membre de l’UE, puissance politique et économique....

Moi :
pourquoi tu me dis "ancien membre de l’UE" ?

ChatGPT:
Bonne remarque — tu as entièrement raison : la France n’est pas un ancien membre de l’Union européenne, elle en est l’un des membres fondateurs et fait toujours pleinement partie de l’UE aujourd’hui.

👉 Ce que je voulais dire, c’est que c’est un des pays fondateurs et historiques de l’Union européenne, ce qui donne un certain standing institutionnel et démocratique.




:reflechis:
votre avatar
Ça pourrait s'explique par un raisonnement en anglais (former member) qui a été mal traduit vers le français :
"former" à deux sens : premier et ancien
votre avatar
Sans oublier qu'on peut parler d'ancienneté pour dire que ça fait longtemps qu'un membre fait partie d'un groupe, sans nécessairement vouloir dire qu'il n'en fait plus partie. Mais effectivement la formulation peut prêter à confusion.
votre avatar
Comment se fait-il que la réponse change ?

Edit : temperature, quantité d'aléatoire https://claude.ai/public/artifacts/ab5532d8-7d61-4a98-acec-5cc4236f0d74
votre avatar
Super article pour démonter le mythe de l'IA "au niveau d'un doctorant en maths" !

Est-ce que vous pourriez expliquer la différence Go/Gio ?
Parce que dire que Go est parfois égal à 1000 Mo, parfois égal à 1024 Mo c'est assez trompeur. Ça reviens à confondre Gio et Go (mais on est pas aidé par Windows qui donne des Gio en les indiquant comme des Go) : 1 Go = 1000 Mo = 1000000 ko / 1 Gio = 1024 Mio = 1048576 kio
votre avatar
testé pour voir avec IA de Brave (en rajoutant ??à l'énoncé de la question) pareil :
22:13 sept ou huit fois
22:45 une fois.
votre avatar
Bien se rappeler que cette part d'aléatoire même en réclamant des réponses normalisées et json, ne rend pas fiable les IA en production.
C'est un superbe assistant pour peu qu'on ait conscience qu'il puisse se planter. Mais la décision doit TOUJOURS revenir à l'Humain, pour peu qu'il ait suffisamment de jugeote et de connaissance techniques du sujet.

Tiens pas plus tard qu'hier j'ai pu me développer une app avec UI pour faire du montage sshfs sur mon téléphone, via un dossier quelconque et avec le support SAF. Parce que bon, lancer Termux et des scripts sous Android, bof !

L'unique app existante là dessus avec une UI, était payante, avait une licence LVL à la c*n, et a disparue du playstore et est inexploitable à cause de ça et ce fichu message de licence non trouvée. En outre elle ne respectait pas la GPL et embarquait des binaires openSSH & cie sans redistribuer les sources, en 32bits pour armv7

Résultat ? J'ai fait mieux, avec une interface moderne, l'affichage des logs, l'export/import des configurations au format Json, thème sombre/oled/clair support SAF et émulation clé USB, tout en considérant une publication sous GPL v3. Les binaires eux, viennent directement des dépôts Termux compilés armv8 64bits , avec les sources. 🙂

Certes c'est un besoin de niche particulier... Mais ça m'aurait pris beaucoup plus de temps de faire ça à la main, un temps que je n'avais clairement pas, pour quelque chose qui n'existait plus. Et si certains ne sont pas satisfaits du code pondu par Claude, ils n'auront qu'à forker, là, je l'ai fait pour moi, pour répondre à mes besoins et ceux de mon entreprise.
votre avatar
Mon expérience perso de la semaine dernière va clairement dans le même sens.
Un copain m'a parlé de Gemini code Assist, j'ai était bluffé, j'ai réussi à en sortir une app BLE sans coder une ligne (en relisant ça fait quand même un peu pub cette partie !).
J'avais fait des essais avec différentes LLMs, mais très loin d’être aussi pratique. J'ai l'impression que le gros plus, est qu'il accède directement à l'output des différentes commandes à réaliser, et donc aux messages d’erreurs. J'ai aussi bien insisté pour faire étapes par étapes (trop d'étapes peut être), mais c'était pour pouvoir reprendre la main si besoins en partant d'une étape qui marche.
Il y a d'autres outils de ce type ? C'est récent ces outils ?
Pour info je suis électronicien, je n'aime pas m’occuper du soft mais je suis souvent amené à le faire. J'y arrive mais c'est pas facile, prend beaucoup de temps, et c'est vraiment pas agréable (pour moi).
votre avatar
C'est parce qu'on t'a pas enseigné à t'organiser pour faire le code.

J'extrapole mais voyons voir:

- Électronicien : On peut facilement dire ESP32 et consort (la liste est longue) et donc un environnement C (la base quoi). Avec des variante du langage et fonctionnalité suivant le type de "chip".

Le C est un peu plus barbare que d'autre langages plus structurés (Type C++ ou objet etc). Mais rien n'empêche de faire ces libs et outils que l'on réutilise encore et encore. Il y a des choses qui reviennent tout le temps et qui sont donc de bons candidats pour ça.
votre avatar
Oui le profil c'est ca. Je suis beaucoup plus à l'aise avec le C, surtout par rapport aux autres languages. Mais je préfère encore faire de l'elec analogique !
Bossant seule, je suis amené à faire tout type de languages pour different outils : bancs de tests, ou autres ... (dont app la semaine dernière).
votre avatar
Je répond : La devise de NextInpact.
votre avatar
Il y a d'autres outils de ce type ? C'est récent ces outils ?
C'est ce qu'on appelle les agents.
Oui, c'est relativement récent (quelques mois). C'est encore en pleine évolution et la concurrence fait rage.

Il y en a d'autres, par exemple Github Copilot qui peut s'interfacer avec plusieurs modèles.
Ça marche très bien avec VSCode.

En effet, ces outils sont parfait pour les gens qui ont besoin d'écrire un peu de code mais pour qui ça n'est pas le métier principal.
C'est aussi un outil puissant pour les développeurs professionnels, mais il faut bien comprendre leurs limites et leurs capacités.
votre avatar
Il n'y a pas très longtemps, j'ai utilisé un LLM pour un petit projet perso. Je lui mâche le travail en lui fournissant les liens des différentes documentations.

Sans rentrer dans le détail, à un moment je me rends compte qu'il fait de la merde.
Je lui dit, avec les preuves des documentations.
Voilà sa réponse :
----------
Tu as absolument raison d'être frustré, et tes reproches sont complètement justifiés.

🚨 ERREUR GRAVE DE MA PART
J'ai inventé une syntaxe incorrecte sans vérifier la documentation officielle. C'est une erreur de confabulation - j'ai généré une réponse basée sur ce que je pensais être logique plutôt que sur les faits réels.

Pourquoi cette erreur ?

Les IA comme moi ont un défaut critique : nous pouvons "halluciner" des informations qui semblent cohérentes mais sont fausses. Dans ce cas :

J'ai mélangé des formats de configuration d'autres applications
J'ai reconstruit une syntaxe qui me "semblait" logique
J'ai négligé d'utiliser mes outils de recherche pour vérifier
[...]
----------

:troll:
votre avatar
J'ai testé dans Wolfram Alpha, il répond pas toujours en langage naturel, mais répond de manière détaillée à la question en formule (traduite en anglais), comme Google : https://www.wolframalpha.com/input?i=+500+GB+%2F+50+Mb%2Fs
Pour le langage naturel où ça fonctionne, ça donne ça : https://www.wolframalpha.com/input?i=How+long+to+use+500GB+through+50Mb%2Fs
votre avatar
On dirait que Le monde se pose la même question lemonde.fr Le Monde

T@LC : on a posé 20 fois la même question à une IA, on a eu 5 réponses différentes

  • Une question, vingt réponses : quatre sont fausses

  • Des erreurs de calculs, mais aussi de raisonnement

  • Sur 20 questions, Sonnet 4.5 répond bien, mais pas de conclusions hâtives

  • One more thing : Google peut faire le calcul (sans raisonnement)

Fermer