Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA

Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.

Illustration : Flock

Mathilde Saliou

Le 17 juillet 2025 à 10h06

Plusieurs dizaines de chercheurs en vue dans le monde de l’IA appellent à développer des techniques de surveillance des « fils de pensée » des modèles d’IA. L’idée même que ces systèmes techniques soient capable de raisonnement est profondément débattue.

Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA

Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.

Illustration : Flock

Mathilde Saliou

Le 17 juillet 2025 à 10h06

IA et algorithmes

6 min

Enquêter sur les « pensées » des modèles de « raisonnement » d’intelligence artificielle ? C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta –, des scientifiques affiliés à diverses institutions comme le UK AI Security Instititute et de grands noms du domaine comme Yoshua Bengio.

L’idée qu’ils défendent : déployer des technologies de surveillance des « chaînes de pensée » des systèmes d’IA pour y « détecter l’intention de mal se comporter ». Dans un article (un position paper intitulé « Chain of Thought Monitorability : a new and fragile opportunity for AI safety ») publié ce 15 juillet, les signataires appellent les développeurs de « modèles frontières » à se pencher sur la possibilité de suivre les « fils de pensée » (chain of thoughts, CoT) des modèles à mesure qu’ils les développent.

La proposition s’inscrit dans un contexte de difficulté à comprendre la manière dont les modèles d’apprentissage machine et les grands modèles de langage construits grâces à ces techniques parviennent à leurs résultats. Plus récemment, elle s’inscrit dans l’affirmation selon laquelle des modèles comme le o3 d’OpenAI ou le R1 de DeepSeek seraient capables de « raisonnement ». Pour les auteurs de l’article, « la surveillance des CoT est un complément précieux aux mesures de sécurité des modèles frontières, car elle offre un rare aperçu de la manière dont les agents IA prennent des décisions ».

Modèles de quoi ?

Poussée par OpenAI à l’été 2023, l’expression « modèle frontière » décrit d’après l’entreprise « des modèles de fondation très performants qui pourraient posséder des capacités dangereuses suffisantes pour poser des risques graves pour la sécurité publique ». Meta qualifie par exemple son modèle Llama 3.1 de modèle « frontière ».

Si elle est débattue dans le milieu scientifique, la notion de modèle de fondation est quant à elle définie dans le droit européen comme « un système d’IA entraîné sur un vaste jeu de données, et construit pour la généralité de ses productions ».

IA

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA

Jeudi 30 novembre 2023 à 08h40 30/11/2023 08h40

11

Les modèles de langage de raisonnement (reasoning language models) sont un qualificatif accolé à différents LLM depuis la publication du système o1 d’Open Ai, en septembre 2024. Ils fonctionnent grâce à des logiques de « fils de pensée », ces fonctionnalités grâce auxquelles un système génératif fournit un aperçu des étapes par lesquelles il est passé pour produire sa réponse. Ces derniers permettent en effet d’illustrer comment un grand modèle de langage divise une question ou une tâche en étapes, qu’il réalise les unes après les autres pour finalement produire une réponse globale.

Ouvrir les boîtes noires ?

Explicabilité et transparence sont par ailleurs depuis de nombreuses années en tête des requêtes des chercheurs pour faciliter l’audit et la compréhension de toutes sortes de modèles algorithmiques, que ceux-ci soient génératifs ou, par exemple, en charge de trier ou de modérer les flots de contenus présents sur les réseaux sociaux. En 2018, déjà, le rapport Villani soulignait la nécessité de faciliter la compréhension de leur fonctionnement.

IA

Intelligence artificielle : l’explicabilité, cette notion « chiante »

IA

Vendredi 22 novembre 2024 à 17h30 22/11/2024 17h30

14

Le position paper tout juste publié cherche justement à attirer de nouveau l’attention sur ces enjeux d’explicabilité. Ses cosignataires, que soutiennent quatre experts de renom, dont le prix Nobel Geoffrey Hinton ou le fondateur de Safe Superintelligence Inc. et ex-Open AI Ilya Sustkever, appellent à développer des techniques de surveillance des « fils de pensée », mais aussi de maintien de ces fonctionnalités. Le but : les explorer plus précisément pour gagner une meilleure compréhension du fonctionnement des LLM. Mais aussi s’assurer que « le degré actuel de visibilité » perdure.

La publication se fait dans un contexte dans lequel les plus grosses sociétés du secteur sont en compétition ouverte. Depuis quelques semaines, Meta s’est notamment employé à débaucher bon nombre de spécialistes travaillant jusqu’ici pour Google Deepmind, OpenAI, Anthropic ou même Apple pour développer son propre laboratoire en intelligence artificielle. Historiquement engagé sur les sujets de « sécurité de l’IA », ou AI safety, le cofondateur d’Anthropic Dario Amodei a de son côté indiqué en avril souhaiter « ouvrir la boîte noire » des systèmes d’IA d’ici 2027.

Économie

Meta annonce investir des centaines de milliards de dollars dans des datacenters pour l’IA

Économie

Mardi 15 juillet 2025 à 17h23 15/07/2025 17h23

3

Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?

S’il est signé par de multiples pontes du domaine, cet article creuse par ailleurs un sillon déjà largement tracé de comparaisons du fonctionnement de systèmes techniques à des comportements humains. La pratique est ardemment débattue par des scientifiques comme la linguiste Emily Bender ou l’informaticienne Timnit Gebru, pour qui elle brouille la compréhension du public et des décideurs du fonctionnement réel de ces systèmes.

IA

Neurone, inférence, entraînement, hallucination… de quoi on parle ?

IA

Vendredi 05 avril 2024 à 08h15 05/04/2024 08h15

7

En l’occurrence, évoquer les « fils de pensée » de modèles statistiques participe directement à instiller l’idée que ces machines soient conscientes — à la sortie du modèle o1 d’OpenAI, Emily Bender et la sociologue Alex Hanna avaient qualifié de « ridicule » la décision de l’entreprise de le présenter comme capable de raisonnement.

Ce flou est à l’origine de multiples débats dans la communauté de la recherche en intelligence artificielle – en 2022, l’ingénieur Blake Lemoine avait été écarté de Google après avoir affirmé que le modèle LaMDA était conscient. Dans une certaine mesure, il permet aussi aux sociétés du secteur de « continuer de faire ce qu’elles veulent », expliquait l’autrice de l’enquête Empire of AI, Karen Hao, à Next.

Commentaires (34)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

iMaman Premium

Le 17/07/2025 à 10h49

C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta ...

Tout est dit.

fred42 Premium

Le 17/07/2025 à 10h58

Vue leur prise de position, non, tout n'est pas dit.

iMaman Premium

Le 17/07/2025 à 11h15

Je voulais dire que cet appel par ces chercheurs financés par les plus grandes sociétés d’IA ne vaut rien sinon faire croire que ce qu'ils ont développés est tellement puissant qu'il faut le surveiller, bref encore la même technique de marketing déjà vue.
S'ils avaient appeler à plus de sobriété énergétique là on pourrait les prendre au sérieux.

RuMaRoCO Premium

Le 17/07/2025 à 11h16

[Mode troll]
C'est parcequ'ils sont 41 et non 42 que vous dites ça ?

RuMaRoCO Premium

Le 17/07/2025 à 11h19

Le vrai problème qui a été soulevé déjà dans pas mal d'articles et commentaires ici, c'est le lexique employé est inappropriée et confusant.
"Intelligence Artificiel" au lieu "d'algorythme."
"Pensée" au lieu de "traitement" etc.

deathscythe0666 Premium

Le 17/07/2025 à 12h09

au lieu "d'algoryithme."

Il n'y a pas de y à algorithme.

stratic Premium

Le 17/07/2025 à 12h32

Il n'y a pas de y à algorithme.

Oui, mais c'est le seul moyen qu'il ait trouvé pour prouver que son commentaire était bien posté par un humain.

Timanu69

Le 17/07/2025 à 15h24

Pourtant il y a juste à rajouter "slip de bain" à la fin de la fraze

RuMaRoCO Premium

Le 17/07/2025 à 13h28

Quand devient dyslexique quand je fatigue. Merci pour la correction.

sitesref Premium

Le 17/07/2025 à 12h46

Est-ce même encore un algorithme ? Pour moi, un algorithme, c'est déterministe.

Triton Premium

Le 17/07/2025 à 13h22

Pas nécessairement, il peut y avoir une part d’aléa, comme par exemple avec le test de primalité de Miller-Rabin (qui effectivement n’est pas garanti à 100%).

deathscythe0666 Premium

Le 17/07/2025 à 13h27

Un algorithme peut tout à fait ne pas être déterministe (selon d'où tu regardes).

Gamble

Le 17/07/2025 à 18h31

Un algorithme est toujours déterministe, mais cela n'implique pas qu'il est facile d'en connaitre le déroulé temporel exact, car il peut dépendre d'entrées analogiques.

deathscythe0666 Premium

Le 17/07/2025 à 18h36

"Selon d'où tu regardes"

Je suis d'accord avec toi, mais des fois, le contexte d'exécution est tellement vaste que, du point de vue de la validation, c'est difficile de considérer que c'est déterministe. Par exemple, l'algo qui dirige un robot est déterministe, mais les capteurs utilisés peuvent introduire tellement de variations que tu peux considérer que c'est stochastique (parce que les input le sont de manière non maîtrisable).

Gamble

Le 17/07/2025 à 19h57

Les capteurs sont des entrées analogiques, mais une fois numérisée, la plage de valeurs est limitée. Donc la validation va tester les valeurs limites et un certain nombre de valeurs intermédiaires. Les capteurs ne font pas partie de l'algorithme, mais sont uniquement une des entrée de celui-ci. C'est pareil quand on veut tester un site web ou une interface graphique, les interactions de l'utilisateur sont quasi aléatoires.

deathscythe0666 Premium

Le 18/07/2025 à 22h01

mais une fois numérisée, la plage de valeurs est limitée.

Limitée ? Si tu as un robot avec un capteur qui retourne 30 valeurs, c'est facile, si tu as de multiples capteurs, dont des caméras, tu as une quasi infinité de paramètres d'entrée, et ce n'est pas évident de trouver des valeurs limites. La preuve de programme est très très loin de pouvoir gérer ce type de programme, et on va considérer plein de cas comme étant stochastiques parce que c'est inatteignable d'énumérer ne serait-ce que des plages de valeurs en nombre raisonnable.

KooKiz Premium

Modifié le 17/07/2025 à 13h36

Un algorithme est déterministe dans son déroulement, mais pas nécessairement dans le résultat qu'il produit. "Choisir aléatoirement" est une étape valide dans un algorithme.

Edit: archi-grillé. J'avais ouvert l'article dans un onglet pour le lire plus tard, et je n'ai pas rafraichi les commentaires quand je l'ai finalement fait

obor2

Modifié le 17/07/2025 à 15h53

La question pourrait être: est-ce que l'IA peut être déterministe ?

SebGF Premium

Le 17/07/2025 à 18h39

La question pourrait être: est-ce que l'IA peut être déterministe ?

Oui, ça fait partie des paramètres d'un LLM. Bon, il ne risque pas forcément de ressortir à 100% le même résultat, mais tu peux jouer sur ces curseurs pour limiter ses options et réduire la part d'aléatoire dans son traitement.

deathscythe0666 Premium

Le 18/07/2025 à 22h02

Bon, il ne risque pas forcément de ressortir à 100% le même résultat

Il peut, mais il faut vraiment que tout (modèle + environnement) soit statique pour retomber sur exactement la même exécution.

SebGF Premium

Le 19/07/2025 à 08h35

Les paramètres dont je parlais étaient notamment les top_k, top_n, température, etc. Sur un petit modèle, les chances d'avoir toujours le même résultat sont plus élevées que sur un gros je pense.

deathscythe0666 Premium

Le 19/07/2025 à 09h47

Plus c'est complexe ... plus c'est complexe :-P

aaaa

Le 17/07/2025 à 13h55

Les modèles de langages n'ont rien d'algorithmique

RuMaRoCO Premium

Le 17/07/2025 à 14h57

En êtes vous sur.
Pour moi un algorithme c'est une entrée suivi d'une opération donnant un résultat (schéma au plus simple).

La CNIL semble me donnée raison :
https://www.cnil.fr/fr/definition/algorithme#:~:text=Un%20algorithme%20est%20la%20description,%C3%A0%20partir%20de%20ses%20ingr%C3%A9dients!

Mais ça n'engage que moi.

aaaa

Le 17/07/2025 à 15h21

Tu as oublié le début de la définition de la cnil, pour commencer. "la description d'une suite d'étapes". Un LLM ne décris pas d'étapes. Au mieux on peut dire qu'il décrit des poids dans un espace latent.

KooKiz Premium

Le 17/07/2025 à 15h28

Les poids du modèle ne sont effectivement pas un algorithme mais un jeu de données. Le code qui prend le texte de l'utilisateur et "exprime" le réseau de neurones pour produire la réponse est un algorithme.

RuMaRoCO Premium

Le 17/07/2025 à 15h41

Je ne comprends pas ou serait la dichotomie.
Le programme sous jacent au LLM pour reprendre votre au mieux :
execute bien une suite d'action, comme vous dites "décrire" pour avoir une "valeur" qu'il place et compare, dans "l'espace latent", transforme pour restituer un résultat.

La complexité de l'algo et que chaque neurone execute une action par rapport à un attribut (paramètre) spécifique en en rajoutant une part d'aléatoire.
Et dans un Large language model (d'où le "large"), il peut y en avoir littéralement plus d'un milliard.
donc un algo, extrêmement complexe.

obor2

Modifié le 17/07/2025 à 16h04

Je ne suis pas un expert IA, mais lorsque je conçois l'objet dans mon esprit, je dirait que c'est une algorithme sur une machine à états dont l'état change constamment.

Dans ma vision des choses, si on "clone une IA" à un moment donné (i.e. on sauvegarde l'état dans lequel elle se trouve) et qu'on entre le même input à l'IA originale et son clone, les deux devraient sortir la même chose. Les poids étant les mêmes, les paramètres également. (Sauf, bien entendu, si on a introduit de l'aléatoire dans ses fonctions) C'est lorsqu'on diverge dans les inputs qu'on introduit une diffraction du résultat.

Gamble

Le 17/07/2025 à 18h23

Déjà, peu de modèles changent en dynamique, et pour les modèles qui ont essayé, ça a rapidement dérapé. Et un modèle fixe qu'on clone ne donnera probablement pas exactement le même output pour un même input, car certains nœuds injectent un peu d'aléa dans le calcul. Donc il faudrait avoir le même modèle et la (ou les) même(s) graine(s) pour aboutir au même résultat.

Gamble

Le 17/07/2025 à 18h19

L'algo d'un LLM est plutôt simple, c'est l'entrainement qui est complexe. Ce n'est pas parce qu'on fait des milliards de fois la même chose que la chose devient compliquée.

FireSledge

Modifié le 17/07/2025 à 17h24

Disons que l’algorithme d’inférence d’un LLM n’est qu’un intermédiaire pour générer le résultat. Le fonctionnement est en réalité décrit par les bazillions de coefficients de pondération moulinés par le-dit algorithme, qui lui reste relativement simple, pour ne pas dire rudimentaire. Et surtout, son fonctionnement ne dit absolument rien des fonctionnalités accomplies par le LLM, au contraire par exemple d’un système expert à l’ancienne.

Pour les gens qui sont dans l’audionumérique, disons que c’est un peu le même écart qui sépare une réverbération à convolution d’une réverbération algorithmique. Cette dernière produit un résultat basé sur des briques élémentaires qu’on combine entre elles et qui ont un comportement bien connu. À ce titre, une personne du métier peut facilement modifier et paraméter l’algorithme pour lui donner la tournure voulue. À l’inverse, la convolution est un procédé archi-simple mais dont le résultat est complètement contenu dans les grosses quantités de données d’entrée (l’« impulsion » dont on se sert pour paramétrer l’effet). On ne peut pas tordre l’algo de convolution, on ne peut que modifier l’impulsion, et cette opération n’est pas triviale (enfin quand même plus qu’avec les LLM, c’est un peu la limite de la comparaison).

Gamble

Le 17/07/2025 à 18h27

"c’est un peu le même écart qui sépare une réverbération à convolution d’une réverbération algorithmique"

écart nul, vu que la convolution est juste une opération mathématique qu'on peut implémenter via un algorithme

FireSledge

Modifié le 17/07/2025 à 20h00

Ben non pas nul du tout, mon message précédent explique justement pourquoi et je ne nie absolument pas le caractère algorithmique de la convolution. Qu’est-ce qui n’était pas compréhensible ?

Edit : si ce n’était pas clair, mon premier message répondait à celui de psykobar de 13 h 55, et pas à la conversation qui suivait.

Gamble

Modifié le 17/07/2025 à 18h16

Tout ce qui fonctionne sur un ordinateur est algorithmique. Il peut éventuellement y avoir des entrées analogiques qui génèrent des données plus ou moins aléatoires (notamment une source d'entropie pour avoir des aléas de bonne qualité), mais dès que c'est numérisé, ça rentre dans la partie algorithmique.