Connexion Premium

Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA

Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.

Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA

Plusieurs dizaines de chercheurs en vue dans le monde de l’IA appellent à développer des techniques de surveillance des « fils de pensée » des modèles d’IA. L’idée même que ces systèmes techniques soient capable de raisonnement est profondément débattue.

Le 17 juillet 2025 à 10h06

Enquêter sur les « pensées » des modèles de « raisonnement » d’intelligence artificielle ? C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta –, des scientifiques affiliés à diverses institutions comme le UK AI Security Instititute et de grands noms du domaine comme Yoshua Bengio.

L’idée qu’ils défendent : déployer des technologies de surveillance des « chaînes de pensée » des systèmes d’IA pour y « détecter l’intention de mal se comporter ». Dans un article (un position paper intitulé « Chain of Thought Monitorability : a new and fragile opportunity for AI safety ») publié ce 15 juillet, les signataires appellent les développeurs de « modèles frontières » à se pencher sur la possibilité de suivre les « fils de pensée » (chain of thoughts, CoT) des modèles à mesure qu’ils les développent.

La proposition s’inscrit dans un contexte de difficulté à comprendre la manière dont les modèles d’apprentissage machine et les grands modèles de langage construits grâces à ces techniques parviennent à leurs résultats. Plus récemment, elle s’inscrit dans l’affirmation selon laquelle des modèles comme le o3 d’OpenAI ou le R1 de DeepSeek seraient capables de « raisonnement ». Pour les auteurs de l’article, « la surveillance des CoT est un complément précieux aux mesures de sécurité des modèles frontières, car elle offre un rare aperçu de la manière dont les agents IA prennent des décisions ».

Modèles de quoi ?

Poussée par OpenAI à l’été 2023, l’expression « modèle frontière » décrit d’après l’entreprise « des modèles de fondation très performants qui pourraient posséder des capacités dangereuses suffisantes pour poser des risques graves pour la sécurité publique ». Meta qualifie par exemple son modèle Llama 3.1 de modèle « frontière ».

Si elle est débattue dans le milieu scientifique, la notion de modèle de fondation est quant à elle définie dans le droit européen comme « un système d’IA entraîné sur un vaste jeu de données, et construit pour la généralité de ses productions ».

Les modèles de langage de raisonnement (reasoning language models) sont un qualificatif accolé à différents LLM depuis la publication du système o1 d’Open Ai, en septembre 2024. Ils fonctionnent grâce à des logiques de « fils de pensée », ces fonctionnalités grâce auxquelles un système génératif fournit un aperçu des étapes par lesquelles il est passé pour produire sa réponse. Ces derniers permettent en effet d’illustrer comment un grand modèle de langage divise une question ou une tâche en étapes, qu’il réalise les unes après les autres pour finalement produire une réponse globale.

Ouvrir les boîtes noires ?

Explicabilité et transparence sont par ailleurs depuis de nombreuses années en tête des requêtes des chercheurs pour faciliter l’audit et la compréhension de toutes sortes de modèles algorithmiques, que ceux-ci soient génératifs ou, par exemple, en charge de trier ou de modérer les flots de contenus présents sur les réseaux sociaux. En 2018, déjà, le rapport Villani soulignait la nécessité de faciliter la compréhension de leur fonctionnement.

Le position paper tout juste publié cherche justement à attirer de nouveau l’attention sur ces enjeux d’explicabilité. Ses cosignataires, que soutiennent quatre experts de renom, dont le prix Nobel Geoffrey Hinton ou le fondateur de Safe Superintelligence Inc. et ex-Open AI Ilya Sustkever, appellent à développer des techniques de surveillance des « fils de pensée », mais aussi de maintien de ces fonctionnalités. Le but : les explorer plus précisément pour gagner une meilleure compréhension du fonctionnement des LLM. Mais aussi s’assurer que « le degré actuel de visibilité » perdure.

La publication se fait dans un contexte dans lequel les plus grosses sociétés du secteur sont en compétition ouverte. Depuis quelques semaines, Meta s’est notamment employé à débaucher bon nombre de spécialistes travaillant jusqu’ici pour Google Deepmind, OpenAI, Anthropic ou même Apple pour développer son propre laboratoire en intelligence artificielle. Historiquement engagé sur les sujets de « sécurité de l’IA », ou AI safety, le cofondateur d’Anthropic Dario Amodei a de son côté indiqué en avril souhaiter « ouvrir la boîte noire » des systèmes d’IA d’ici 2027.

Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?

S’il est signé par de multiples pontes du domaine, cet article creuse par ailleurs un sillon déjà largement tracé de comparaisons du fonctionnement de systèmes techniques à des comportements humains. La pratique est ardemment débattue par des scientifiques comme la linguiste Emily Bender ou l’informaticienne Timnit Gebru, pour qui elle brouille la compréhension du public et des décideurs du fonctionnement réel de ces systèmes.

En l’occurrence, évoquer les « fils de pensée » de modèles statistiques participe directement à instiller l’idée que ces machines soient conscientes — à la sortie du modèle o1 d’OpenAI, Emily Bender et la sociologue Alex Hanna avaient qualifié de « ridicule » la décision de l’entreprise de le présenter comme capable de raisonnement.

Ce flou est à l’origine de multiples débats dans la communauté de la recherche en intelligence artificielle – en 2022, l’ingénieur Blake Lemoine avait été écarté de Google après avoir affirmé que le modèle LaMDA était conscient. Dans une certaine mesure, il permet aussi aux sociétés du secteur de « continuer de faire ce qu’elles veulent », expliquait l’autrice de l’enquête Empire of AI, Karen Hao, à Next.

Commentaires (34)

votre avatar
C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta ...
Tout est dit.
votre avatar
Vue leur prise de position, non, tout n'est pas dit.
votre avatar
Je voulais dire que cet appel par ces chercheurs financés par les plus grandes sociétés d’IA ne vaut rien sinon faire croire que ce qu'ils ont développés est tellement puissant qu'il faut le surveiller, bref encore la même technique de marketing déjà vue.
S'ils avaient appeler à plus de sobriété énergétique là on pourrait les prendre au sérieux.
votre avatar
[Mode troll]
C'est parcequ'ils sont 41 et non 42 que vous dites ça ? :mdr2:
votre avatar
Le vrai problème qui a été soulevé déjà dans pas mal d'articles et commentaires ici, c'est le lexique employé est inappropriée et confusant.
"Intelligence Artificiel" au lieu "d'algorythme."
"Pensée" au lieu de "traitement" etc.
votre avatar
au lieu "d'algoryithme."
Il n'y a pas de y à algorithme.
votre avatar
Il n'y a pas de y à algorithme.
Oui, mais c'est le seul moyen qu'il ait trouvé pour prouver que son commentaire était bien posté par un humain.
votre avatar
Pourtant il y a juste à rajouter "slip de bain" à la fin de la fraze :D
votre avatar
Quand devient dyslexique quand je fatigue. Merci pour la correction.
votre avatar
Est-ce même encore un algorithme ? Pour moi, un algorithme, c'est déterministe.
votre avatar
Pas nécessairement, il peut y avoir une part d’aléa, comme par exemple avec le test de primalité de Miller-Rabin (qui effectivement n’est pas garanti à 100%).
votre avatar
Un algorithme peut tout à fait ne pas être déterministe (selon d'où tu regardes).
votre avatar
Un algorithme est toujours déterministe, mais cela n'implique pas qu'il est facile d'en connaitre le déroulé temporel exact, car il peut dépendre d'entrées analogiques.
votre avatar
"Selon d'où tu regardes"

Je suis d'accord avec toi, mais des fois, le contexte d'exécution est tellement vaste que, du point de vue de la validation, c'est difficile de considérer que c'est déterministe. Par exemple, l'algo qui dirige un robot est déterministe, mais les capteurs utilisés peuvent introduire tellement de variations que tu peux considérer que c'est stochastique (parce que les input le sont de manière non maîtrisable).
votre avatar
Les capteurs sont des entrées analogiques, mais une fois numérisée, la plage de valeurs est limitée. Donc la validation va tester les valeurs limites et un certain nombre de valeurs intermédiaires. Les capteurs ne font pas partie de l'algorithme, mais sont uniquement une des entrée de celui-ci. C'est pareil quand on veut tester un site web ou une interface graphique, les interactions de l'utilisateur sont quasi aléatoires.
votre avatar
mais une fois numérisée, la plage de valeurs est limitée.
Limitée ? Si tu as un robot avec un capteur qui retourne 30 valeurs, c'est facile, si tu as de multiples capteurs, dont des caméras, tu as une quasi infinité de paramètres d'entrée, et ce n'est pas évident de trouver des valeurs limites. La preuve de programme est très très loin de pouvoir gérer ce type de programme, et on va considérer plein de cas comme étant stochastiques parce que c'est inatteignable d'énumérer ne serait-ce que des plages de valeurs en nombre raisonnable.
votre avatar
Un algorithme est déterministe dans son déroulement, mais pas nécessairement dans le résultat qu'il produit. "Choisir aléatoirement" est une étape valide dans un algorithme.

Edit: archi-grillé. J'avais ouvert l'article dans un onglet pour le lire plus tard, et je n'ai pas rafraichi les commentaires quand je l'ai finalement fait :D
votre avatar
La question pourrait être: est-ce que l'IA peut être déterministe ?
votre avatar
La question pourrait être: est-ce que l'IA peut être déterministe ?
Oui, ça fait partie des paramètres d'un LLM. Bon, il ne risque pas forcément de ressortir à 100% le même résultat, mais tu peux jouer sur ces curseurs pour limiter ses options et réduire la part d'aléatoire dans son traitement.
votre avatar
Bon, il ne risque pas forcément de ressortir à 100% le même résultat
Il peut, mais il faut vraiment que tout (modèle + environnement) soit statique pour retomber sur exactement la même exécution.
votre avatar
Les paramètres dont je parlais étaient notamment les top_k, top_n, température, etc. Sur un petit modèle, les chances d'avoir toujours le même résultat sont plus élevées que sur un gros je pense.
votre avatar
Plus c'est complexe ... plus c'est complexe :-P
votre avatar
Les modèles de langages n'ont rien d'algorithmique
votre avatar
En êtes vous sur.
Pour moi un algorithme c'est une entrée suivi d'une opération donnant un résultat (schéma au plus simple).

La CNIL semble me donnée raison :
https://www.cnil.fr/fr/definition/algorithme#:~:text=Un%20algorithme%20est%20la%20description,%C3%A0%20partir%20de%20ses%20ingr%C3%A9dients!

Mais ça n'engage que moi.
votre avatar
Tu as oublié le début de la définition de la cnil, pour commencer. "la description d'une suite d'étapes". Un LLM ne décris pas d'étapes. Au mieux on peut dire qu'il décrit des poids dans un espace latent.
votre avatar
Les poids du modèle ne sont effectivement pas un algorithme mais un jeu de données. Le code qui prend le texte de l'utilisateur et "exprime" le réseau de neurones pour produire la réponse est un algorithme.
votre avatar
Je ne comprends pas ou serait la dichotomie.
Le programme sous jacent au LLM pour reprendre votre au mieux :
execute bien une suite d'action, comme vous dites "décrire" pour avoir une "valeur" qu'il place et compare, dans "l'espace latent", transforme pour restituer un résultat.

La complexité de l'algo et que chaque neurone execute une action par rapport à un attribut (paramètre) spécifique en en rajoutant une part d'aléatoire.
Et dans un Large language model (d'où le "large"), il peut y en avoir littéralement plus d'un milliard.
donc un algo, extrêmement complexe.
votre avatar
Je ne suis pas un expert IA, mais lorsque je conçois l'objet dans mon esprit, je dirait que c'est une algorithme sur une machine à états dont l'état change constamment.

Dans ma vision des choses, si on "clone une IA" à un moment donné (i.e. on sauvegarde l'état dans lequel elle se trouve) et qu'on entre le même input à l'IA originale et son clone, les deux devraient sortir la même chose. Les poids étant les mêmes, les paramètres également. (Sauf, bien entendu, si on a introduit de l'aléatoire dans ses fonctions) C'est lorsqu'on diverge dans les inputs qu'on introduit une diffraction du résultat.
votre avatar
Déjà, peu de modèles changent en dynamique, et pour les modèles qui ont essayé, ça a rapidement dérapé. Et un modèle fixe qu'on clone ne donnera probablement pas exactement le même output pour un même input, car certains nœuds injectent un peu d'aléa dans le calcul. Donc il faudrait avoir le même modèle et la (ou les) même(s) graine(s) pour aboutir au même résultat.
votre avatar
L'algo d'un LLM est plutôt simple, c'est l'entrainement qui est complexe. Ce n'est pas parce qu'on fait des milliards de fois la même chose que la chose devient compliquée.
votre avatar
Disons que l’algorithme d’inférence d’un LLM n’est qu’un intermédiaire pour générer le résultat. Le fonctionnement est en réalité décrit par les bazillions de coefficients de pondération moulinés par le-dit algorithme, qui lui reste relativement simple, pour ne pas dire rudimentaire. Et surtout, son fonctionnement ne dit absolument rien des fonctionnalités accomplies par le LLM, au contraire par exemple d’un système expert à l’ancienne.

Pour les gens qui sont dans l’audionumérique, disons que c’est un peu le même écart qui sépare une réverbération à convolution d’une réverbération algorithmique. Cette dernière produit un résultat basé sur des briques élémentaires qu’on combine entre elles et qui ont un comportement bien connu. À ce titre, une personne du métier peut facilement modifier et paraméter l’algorithme pour lui donner la tournure voulue. À l’inverse, la convolution est un procédé archi-simple mais dont le résultat est complètement contenu dans les grosses quantités de données d’entrée (l’« impulsion » dont on se sert pour paramétrer l’effet). On ne peut pas tordre l’algo de convolution, on ne peut que modifier l’impulsion, et cette opération n’est pas triviale (enfin quand même plus qu’avec les LLM, c’est un peu la limite de la comparaison).
votre avatar
"c’est un peu le même écart qui sépare une réverbération à convolution d’une réverbération algorithmique"

écart nul, vu que la convolution est juste une opération mathématique qu'on peut implémenter via un algorithme
votre avatar
Ben non pas nul du tout, mon message précédent explique justement pourquoi et je ne nie absolument pas le caractère algorithmique de la convolution. Qu’est-ce qui n’était pas compréhensible ?

Edit : si ce n’était pas clair, mon premier message répondait à celui de psykobar de 13 h 55, et pas à la conversation qui suivait.
votre avatar
Tout ce qui fonctionne sur un ordinateur est algorithmique. Il peut éventuellement y avoir des entrées analogiques qui génèrent des données plus ou moins aléatoires (notamment une source d'entropie pour avoir des aléas de bonne qualité), mais dès que c'est numérisé, ça rentre dans la partie algorithmique.

Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA

  • Modèles de quoi ?

  • Ouvrir les boîtes noires ?

  • Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?