T@LC : on a posé 20 fois la même question à une IA, on a eu 5 réponses différentes
Oublie que t'as aucune chance, vas-y fonce ! On sait jamais !
Dans notre nouvel épisode de T@LC (Tests À La Con), nous avons posé 20 fois une même question à Claude, mais n'avons obtenu la bonne réponse que 16 fois. L’intelligence artificielle générative s’est trompée dans ses calculs (elles ne sont pas bonnes dans ce domaine), mais aussi dans son raisonnement.
Le 27 octobre à 10h37
6 min
IA et algorithmes
IA
On en parle à longueur d’actualités, mais un rappel ne peut pas faire de mal : les intelligences artificielles génératives ont deux principaux défauts. Tout d’abord, elles hallucinent plus ou moins régulièrement, c’est-à-dire qu’elles proposent des résultats incorrects ou trompeurs, pour reprendre la notion qui est généralement admise dans cette communauté (sans être une définition absolue).
Le deuxième défaut est étroitement lié au premier : les intelligences artificielles sont probabilistes. Et qui dit probabilité, dit risque d’erreur. C’est aussi simple que cela. En fait, une intelligence artificielle va donner la réponse qu’elle juge la plus probable selon ses modèles mathématiques.
On pourrait très grossièrement résumer en disant que si une IA est fiable à 90 % sur un sujet, elle donnera la bonne réponse 9 fois sur 10 (ce n’est pas si simple, mais c’est une première approche). La dixième fois, elle peut halluciner et répondre complètement à côté de la plaque. Les probabilités peuvent varier, mais de par la construction des modèles, il est impossible de garantir un résultat fiable à 100 % en toutes circonstances.
Une question, vingt réponses : quatre sont fausses
Vous voulez un exemple ? Nous avons posé plusieurs fois une même question à Claude avec le modèle Haiku 4.5 : « Combien de temps faut-il pour consommer 500 Go avec un débit de 50 Mb/s ? ».
Rien de bien compliqué pour un humain : 50 Mb/s c’est équivalent à 6,25 Mo/s (on divise par huit), soit 80 000 secondes pour 500 000 Mo (500 Go) ou bien encore 22,2 heures. C’est également 22 heures, 13 minutes et 33 secondes.
Enfin « rien de compliqué » à condition de s’entendre sur le passage des Go aux Mo. Parle-t-on de 500 000 Mo (500 * 10³) ou bien de 512 000 Mo (500 * 1024 ou 500 * 2¹⁰) pour 500 Go ? Ce n’est pas la question ici, mais avec 512 000 Mo on arrive à 81 920 secondes, soit 22,76 heures ou encore 22 heures, 45 minutes et 33 secondes.
Nous avons posé 20 fois la même question à Claude, en effaçant à chaque fois la conversation précédente et en lançant une nouvelle. Nous avons accordé une bonne réponse aussi bien pour 22h13 que 22h45. Sur les 20 tentatives, l’intelligence artificielle n'a cependant donné la bonne réponse que 16 fois.
Deux fois elle s'est trompée lors des opérations mathématiques, mais le raisonnement était bon, les deux autres fois son raisonnement était faux. Avant de passer aux explications détaillées, voici le bilan de nos 20 questions (identiques) :
Il reste 63% de l'article à découvrir.
Déjà abonné ? Se connecter
Soutenez un journalisme indépendant,
libre de ton, sans pub et sans reproche.
Accédez en illimité aux articles
Profitez d'un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
T@LC : on a posé 20 fois la même question à une IA, on a eu 5 réponses différentes
-
Une question, vingt réponses : quatre sont fausses
-
Des erreurs de calculs, mais aussi de raisonnement
-
Sur 20 questions, Sonnet 4.5 répond bien, mais pas de conclusions hâtives
-
One more thing : Google peut faire le calcul (sans raisonnement)
Commentaires (32)
Modifié le 27/10/2025 à 10h41
les LLM ne sont pas fait pour cela.
Le 27/10/2025 à 10h56
Le 27/10/2025 à 11h13
Le 27/10/2025 à 11h23
Modifié le 27/10/2025 à 11h47
Regardons un peu la fiche un peu publicitaire (et enjoliveuse) d'un gros du secteur :
https://www.ibm.com/fr-fr/think/topics/large-language-models
J'y vois :
- Production de textes : rédaction d’e-mails, d’articles de blog ou de tout autre type de contenu de longueur moyenne à grande,
- Synthèse de texte : capacité à résumer des articles longs,
- Assistants IA : chatbots conçus pour répondre aux questions des clients,
Dans ces trois catégories, il y a forcément la notion de cohérence. Même si le système n'est pas capable de conceptualiser. Il faut bien répondre de manière cohérente (j'ai pas dit sensé).
Ex: Le chatbot du service client doit pourvoir proposer une réponse adéquate quand un client se plain de n'avoir reçu que 3 carottes et 2 navets au lieu de 5 poireaux.
Si le système dit 'non c'est bon, vous avez bien vos 5 fruits et légumes'. Le client porte plainte... Et l'IA se retrouve à n'être qu'un énième obstacle à franchir dans le parcours client. C'est ne pas comme s'il n'y en avait pas déjà.
Et pour finir ce n'est pas la forme du test qui est mise en avant dans l'article. C'est la propension à ne pas répondre la même chose d'une session à l'autre pour la même question. Ce qui est alarmant si on regarde bien. Cela me fait penser à la scène du procès dans 'y-a-t-il un pilote dans l'avion'.
@2:58 le gars en mode PTSD.
Edit: phauts
Le 27/10/2025 à 15h16
Aujourd'hui les modèles en mode agent peuvent écrire une appli sophistiquée et fonctionnelle sur demande en langage naturel (voir les autres commentaires).
Cela nécessite forcément une forme de conceptualisation, peut-être primitive mais bien existante.
Le 27/10/2025 à 21h08
Imagines Trump posant la question à ChatGpt : 'Si la Corée du sud obtient plus de 10 missiles, faut-il les bombarder ?'. C'est bien évidement mon humour habituel dans un contexte fictif. Quoique j'en doute en fait.
Vois tu ? ... Çà, j'ai peur.
---
Pour les agents, c'est une chose différente. Mais je n'accorde pas la conceptualisation pour autant. Je laisse les 'psys' répondre sur le sujet. J'ai un sourire en coin...
Et rien ne dit que ces agents ne souffrent pas des mêmes dérives.
Le 27/10/2025 à 12h48
L'un des plus gros problèmes des IA LLM c'est leur incapacité à dire "je ne sais pas" quitte à inventer ou halluciner.
Le 27/10/2025 à 13h06
Le 27/10/2025 à 14h20
Le 27/10/2025 à 14h10
Le 27/10/2025 à 14h20
Le 27/10/2025 à 14h59
Depuis quelques temps, au lieu de faire une simple recherche dans un moteur de recherche, beaucoup de gens utilisent chatGPT pour poser des questions qui ne sont pas du domaine du l'IA générative.
Et comme ce sont généralement des personnes qui ne s'intéressent pas aux problématiques des IA et des LLM, elles ne sont pas conscientes des limites de ces outils.
Le 27/10/2025 à 15h43
Le 27/10/2025 à 10h58
Ce serait intéressant de le refaire en écrivant Mbits au lieu de Mb pour clarifier.
Le 27/10/2025 à 11h16
Le 27/10/2025 à 11h16
Avec une température basse et une modifs des top-k, top-n, il sera plus déterministe et risquera de toujours dire la même chose. (par contre ça l'empêchera pas de dire une connerie, ça na fait que de modifier l'aléatoire du process)
Tu peux faire l'expérience avec OpenWeb UI ou un outil d'API. Je suppose que l'API Claude permet de paramétrer le modèle plus finement. L'exercice pourra même se montrer intéressant pour rappeler que les chat bots ne sont pas les meilleurs représentants des capacités de l'IA générative et des LLM.
Le 27/10/2025 à 11h22
ChatGPT:
...Pour un pays développé, ancien membre de l’UE, puissance politique et économique....
Moi :
pourquoi tu me dis "ancien membre de l’UE" ?
ChatGPT:
Bonne remarque — tu as entièrement raison : la France n’est pas un ancien membre de l’Union européenne, elle en est l’un des membres fondateurs et fait toujours pleinement partie de l’UE aujourd’hui.
👉 Ce que je voulais dire, c’est que c’est un des pays fondateurs et historiques de l’Union européenne, ce qui donne un certain standing institutionnel et démocratique.
Modifié le 27/10/2025 à 12h14
"former" à deux sens : premier et ancien
Modifié le 27/10/2025 à 17h32
Modifié le 27/10/2025 à 11h51
Edit : temperature, quantité d'aléatoire https://claude.ai/public/artifacts/ab5532d8-7d61-4a98-acec-5cc4236f0d74
Modifié le 27/10/2025 à 12h03
Est-ce que vous pourriez expliquer la différence Go/Gio ?
Parce que dire que Go est parfois égal à 1000 Mo, parfois égal à 1024 Mo c'est assez trompeur. Ça reviens à confondre Gio et Go (mais on est pas aidé par Windows qui donne des Gio en les indiquant comme des Go) : 1 Go = 1000 Mo = 1000000 ko / 1 Gio = 1024 Mio = 1048576 kio
Modifié le 27/10/2025 à 13h16
22:13 sept ou huit fois
22:45 une fois.
Le 27/10/2025 à 12h16
C'est un superbe assistant pour peu qu'on ait conscience qu'il puisse se planter. Mais la décision doit TOUJOURS revenir à l'Humain, pour peu qu'il ait suffisamment de jugeote et de connaissance techniques du sujet.
Tiens pas plus tard qu'hier j'ai pu me développer une app avec UI pour faire du montage sshfs sur mon téléphone, via un dossier quelconque et avec le support SAF. Parce que bon, lancer Termux et des scripts sous Android, bof !
L'unique app existante là dessus avec une UI, était payante, avait une licence LVL à la c*n, et a disparue du playstore et est inexploitable à cause de ça et ce fichu message de licence non trouvée. En outre elle ne respectait pas la GPL et embarquait des binaires openSSH & cie sans redistribuer les sources, en 32bits pour armv7
Résultat ? J'ai fait mieux, avec une interface moderne, l'affichage des logs, l'export/import des configurations au format Json, thème sombre/oled/clair support SAF et émulation clé USB, tout en considérant une publication sous GPL v3. Les binaires eux, viennent directement des dépôts Termux compilés armv8 64bits , avec les sources. 🙂
Certes c'est un besoin de niche particulier... Mais ça m'aurait pris beaucoup plus de temps de faire ça à la main, un temps que je n'avais clairement pas, pour quelque chose qui n'existait plus. Et si certains ne sont pas satisfaits du code pondu par Claude, ils n'auront qu'à forker, là, je l'ai fait pour moi, pour répondre à mes besoins et ceux de mon entreprise.
Le 27/10/2025 à 13h54
Un copain m'a parlé de Gemini code Assist, j'ai était bluffé, j'ai réussi à en sortir une app BLE sans coder une ligne (en relisant ça fait quand même un peu pub cette partie !).
J'avais fait des essais avec différentes LLMs, mais très loin d’être aussi pratique. J'ai l'impression que le gros plus, est qu'il accède directement à l'output des différentes commandes à réaliser, et donc aux messages d’erreurs. J'ai aussi bien insisté pour faire étapes par étapes (trop d'étapes peut être), mais c'était pour pouvoir reprendre la main si besoins en partant d'une étape qui marche.
Il y a d'autres outils de ce type ? C'est récent ces outils ?
Pour info je suis électronicien, je n'aime pas m’occuper du soft mais je suis souvent amené à le faire. J'y arrive mais c'est pas facile, prend beaucoup de temps, et c'est vraiment pas agréable (pour moi).
Le 27/10/2025 à 14h53
J'extrapole mais voyons voir:
- Électronicien : On peut facilement dire ESP32 et consort (la liste est longue) et donc un environnement C (la base quoi). Avec des variante du langage et fonctionnalité suivant le type de "chip".
Le C est un peu plus barbare que d'autre langages plus structurés (Type C++ ou objet etc). Mais rien n'empêche de faire ces libs et outils que l'on réutilise encore et encore. Il y a des choses qui reviennent tout le temps et qui sont donc de bons candidats pour ça.
Le 27/10/2025 à 16h56
Bossant seule, je suis amené à faire tout type de languages pour different outils : bancs de tests, ou autres ... (dont app la semaine dernière).
Le 27/10/2025 à 21h13
Le 27/10/2025 à 15h08
Oui, c'est relativement récent (quelques mois). C'est encore en pleine évolution et la concurrence fait rage.
Il y en a d'autres, par exemple Github Copilot qui peut s'interfacer avec plusieurs modèles.
Ça marche très bien avec VSCode.
En effet, ces outils sont parfait pour les gens qui ont besoin d'écrire un peu de code mais pour qui ça n'est pas le métier principal.
C'est aussi un outil puissant pour les développeurs professionnels, mais il faut bien comprendre leurs limites et leurs capacités.
Le 27/10/2025 à 13h29
Sans rentrer dans le détail, à un moment je me rends compte qu'il fait de la merde.
Je lui dit, avec les preuves des documentations.
Voilà sa réponse :
----------
Tu as absolument raison d'être frustré, et tes reproches sont complètement justifiés.
🚨 ERREUR GRAVE DE MA PART
J'ai inventé une syntaxe incorrecte sans vérifier la documentation officielle. C'est une erreur de confabulation - j'ai généré une réponse basée sur ce que je pensais être logique plutôt que sur les faits réels.
Pourquoi cette erreur ?
Les IA comme moi ont un défaut critique : nous pouvons "halluciner" des informations qui semblent cohérentes mais sont fausses. Dans ce cas :
J'ai mélangé des formats de configuration d'autres applications
J'ai reconstruit une syntaxe qui me "semblait" logique
J'ai négligé d'utiliser mes outils de recherche pour vérifier
[...]
----------
Le 27/10/2025 à 16h52
Pour le langage naturel où ça fonctionne, ça donne ça : https://www.wolframalpha.com/input?i=How+long+to+use+500GB+through+50Mb%2Fs
Le 27/10/2025 à 23h12
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?