Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA
Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.
Mathilde Saliou
Le 17 juillet 2025 à 10h06
Plusieurs dizaines de chercheurs en vue dans le monde de l’IA appellent à développer des techniques de surveillance des « fils de pensée » des modèles d’IA. L’idée même que ces systèmes techniques soient capable de raisonnement est profondément débattue.
Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA
Les arrières-pensées que nous prêtons aux autres ne sont jamais que nos propres pensées.
Plusieurs dizaines de chercheurs en vue dans le monde de l’IA appellent à développer des techniques de surveillance des « fils de pensée » des modèles d’IA. L’idée même que ces systèmes techniques soient capable de raisonnement est profondément débattue.
Le 17 juillet 2025 à 10h06
IA et algorithmes
IA
6 min
Enquêter sur les « pensées » des modèles de « raisonnement » d’intelligence artificielle ? C’est ce à quoi appellent 41 chercheurs financés par les plus grandes sociétés d’IA – Antrophic, OpenAI, Google DeepMind, Meta –, des scientifiques affiliés à diverses institutions comme le UK AI Security Instititute et de grands noms du domaine comme Yoshua Bengio.
L’idée qu’ils défendent : déployer des technologies de surveillance des « chaînes de pensée » des systèmes d’IA pour y « détecter l’intention de mal se comporter ». Dans un article (un position paper intitulé « Chain of Thought Monitorability : a new and fragile opportunity for AI safety ») publié ce 15 juillet, les signataires appellent les développeurs de « modèles frontières » à se pencher sur la possibilité de suivre les « fils de pensée » (chain of thoughts, CoT) des modèles à mesure qu’ils les développent.
La proposition s’inscrit dans un contexte de difficulté à comprendre la manière dont les modèles d’apprentissage machine et les grands modèles de langage construits grâces à ces techniques parviennent à leurs résultats. Plus récemment, elle s’inscrit dans l’affirmation selon laquelle des modèles comme le o3 d’OpenAI ou le R1 de DeepSeek seraient capables de « raisonnement ». Pour les auteurs de l’article, « la surveillance des CoT est un complément précieux aux mesures de sécurité des modèles frontières, car elle offre un rare aperçu de la manière dont les agents IA prennent des décisions ».
Modèles de quoi ?
Poussée par OpenAI à l’été 2023, l’expression « modèle frontière » décrit d’après l’entreprise « des modèles de fondation très performants qui pourraient posséder des capacités dangereuses suffisantes pour poser des risques graves pour la sécurité publique ». Meta qualifie par exemple son modèle Llama 3.1 de modèle « frontière ».
Si elle est débattue dans le milieu scientifique, la notion de modèle de fondation est quant à elle définie dans le droit européen comme « un système d’IA entraîné sur un vaste jeu de données, et construit pour la généralité de ses productions ».
Les modèles de langage de raisonnement (reasoning language models) sont un qualificatif accolé à différents LLM depuis la publication du système o1 d’Open Ai, en septembre 2024. Ils fonctionnent grâce à des logiques de « fils de pensée », ces fonctionnalités grâce auxquelles un système génératif fournit un aperçu des étapes par lesquelles il est passé pour produire sa réponse. Ces derniers permettent en effet d’illustrer comment un grand modèle de langage divise une question ou une tâche en étapes, qu’il réalise les unes après les autres pour finalement produire une réponse globale.
Ouvrir les boîtes noires ?
Explicabilité et transparence sont par ailleurs depuis de nombreuses années en tête des requêtes des chercheurs pour faciliter l’audit et la compréhension de toutes sortes de modèles algorithmiques, que ceux-ci soient génératifs ou, par exemple, en charge de trier ou de modérer les flots de contenus présents sur les réseaux sociaux. En 2018, déjà, le rapport Villani soulignait la nécessité de faciliter la compréhension de leur fonctionnement.
Le position paper tout juste publié cherche justement à attirer de nouveau l’attention sur ces enjeux d’explicabilité. Ses cosignataires, que soutiennent quatre experts de renom, dont le prix Nobel Geoffrey Hinton ou le fondateur de Safe Superintelligence Inc. et ex-Open AI Ilya Sustkever, appellent à développer des techniques de surveillance des « fils de pensée », mais aussi de maintien de ces fonctionnalités. Le but : les explorer plus précisément pour gagner une meilleure compréhension du fonctionnement des LLM. Mais aussi s’assurer que « le degré actuel de visibilité » perdure.
La publication se fait dans un contexte dans lequel les plus grosses sociétés du secteur sont en compétition ouverte. Depuis quelques semaines, Meta s’est notamment employé à débaucher bon nombre de spécialistes travaillant jusqu’ici pour Google Deepmind, OpenAI, Anthropic ou même Apple pour développer son propre laboratoire en intelligence artificielle. Historiquement engagé sur les sujets de « sécurité de l’IA », ou AI safety, le cofondateur d’Anthropic Dario Amodei a de son côté indiqué en avril souhaiter « ouvrir la boîte noire » des systèmes d’IA d’ici 2027.
Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?
S’il est signé par de multiples pontes du domaine, cet article creuse par ailleurs un sillon déjà largement tracé de comparaisons du fonctionnement de systèmes techniques à des comportements humains. La pratique est ardemment débattue par des scientifiques comme la linguiste Emily Bender ou l’informaticienne Timnit Gebru, pour qui elle brouille la compréhension du public et des décideurs du fonctionnement réel de ces systèmes.
En l’occurrence, évoquer les « fils de pensée » de modèles statistiques participe directement à instiller l’idée que ces machines soient conscientes — à la sortie du modèle o1 d’OpenAI, Emily Bender et la sociologue Alex Hanna avaient qualifié de « ridicule » la décision de l’entreprise de le présenter comme capable de raisonnement.
Ce flou est à l’origine de multiples débats dans la communauté de la recherche en intelligence artificielle – en 2022, l’ingénieur Blake Lemoine avait été écarté de Google après avoir affirmé que le modèle LaMDA était conscient. Dans une certaine mesure, il permet aussi aux sociétés du secteur de « continuer de faire ce qu’elles veulent », expliquait l’autrice de l’enquête Empire of AI, Karen Hao, à Next.
Une quarantaine de chercheurs appellent à surveiller les « pensées » des systèmes d’IA
-
Modèles de quoi ?
-
Ouvrir les boîtes noires ?
-
Surveiller les « pensées » des systèmes d’IA, une anthropomorphisation supplémentaire ?
Commentaires (34)
Abonnez-vous pour prendre part au débat
Déjà abonné ou lecteur ? Se connecter
Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles d'un média expert
Profitez d'au moins 1 To de stockage pour vos sauvegardes
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 17/07/2025 à 10h49
Le 17/07/2025 à 10h58
Le 17/07/2025 à 11h15
S'ils avaient appeler à plus de sobriété énergétique là on pourrait les prendre au sérieux.
Le 17/07/2025 à 11h16
C'est parcequ'ils sont 41 et non 42 que vous dites ça ?
Le 17/07/2025 à 11h19
"Intelligence Artificiel" au lieu "d'algorythme."
"Pensée" au lieu de "traitement" etc.
Le 17/07/2025 à 12h09
Le 17/07/2025 à 12h32
Le 17/07/2025 à 15h24
Le 17/07/2025 à 13h28
Le 17/07/2025 à 12h46
Le 17/07/2025 à 13h22
Le 17/07/2025 à 13h27
Le 17/07/2025 à 18h31
Le 17/07/2025 à 18h36
Je suis d'accord avec toi, mais des fois, le contexte d'exécution est tellement vaste que, du point de vue de la validation, c'est difficile de considérer que c'est déterministe. Par exemple, l'algo qui dirige un robot est déterministe, mais les capteurs utilisés peuvent introduire tellement de variations que tu peux considérer que c'est stochastique (parce que les input le sont de manière non maîtrisable).
Le 17/07/2025 à 19h57
Le 18/07/2025 à 22h01
Modifié le 17/07/2025 à 13h36
Edit: archi-grillé. J'avais ouvert l'article dans un onglet pour le lire plus tard, et je n'ai pas rafraichi les commentaires quand je l'ai finalement fait
Modifié le 17/07/2025 à 15h53
Le 17/07/2025 à 18h39
Le 18/07/2025 à 22h02
Le 19/07/2025 à 08h35
Le 19/07/2025 à 09h47
Le 17/07/2025 à 13h55
Le 17/07/2025 à 14h57
Pour moi un algorithme c'est une entrée suivi d'une opération donnant un résultat (schéma au plus simple).
La CNIL semble me donnée raison :
https://www.cnil.fr/fr/definition/algorithme#:~:text=Un%20algorithme%20est%20la%20description,%C3%A0%20partir%20de%20ses%20ingr%C3%A9dients!
Mais ça n'engage que moi.
Le 17/07/2025 à 15h21
Le 17/07/2025 à 15h28
Le 17/07/2025 à 15h41
Le programme sous jacent au LLM pour reprendre votre au mieux :
execute bien une suite d'action, comme vous dites "décrire" pour avoir une "valeur" qu'il place et compare, dans "l'espace latent", transforme pour restituer un résultat.
La complexité de l'algo et que chaque neurone execute une action par rapport à un attribut (paramètre) spécifique en en rajoutant une part d'aléatoire.
Et dans un Large language model (d'où le "large"), il peut y en avoir littéralement plus d'un milliard.
donc un algo, extrêmement complexe.
Modifié le 17/07/2025 à 16h04
Dans ma vision des choses, si on "clone une IA" à un moment donné (i.e. on sauvegarde l'état dans lequel elle se trouve) et qu'on entre le même input à l'IA originale et son clone, les deux devraient sortir la même chose. Les poids étant les mêmes, les paramètres également. (Sauf, bien entendu, si on a introduit de l'aléatoire dans ses fonctions) C'est lorsqu'on diverge dans les inputs qu'on introduit une diffraction du résultat.
Le 17/07/2025 à 18h23
Le 17/07/2025 à 18h19
Modifié le 17/07/2025 à 17h24
Pour les gens qui sont dans l’audionumérique, disons que c’est un peu le même écart qui sépare une réverbération à convolution d’une réverbération algorithmique. Cette dernière produit un résultat basé sur des briques élémentaires qu’on combine entre elles et qui ont un comportement bien connu. À ce titre, une personne du métier peut facilement modifier et paraméter l’algorithme pour lui donner la tournure voulue. À l’inverse, la convolution est un procédé archi-simple mais dont le résultat est complètement contenu dans les grosses quantités de données d’entrée (l’« impulsion » dont on se sert pour paramétrer l’effet). On ne peut pas tordre l’algo de convolution, on ne peut que modifier l’impulsion, et cette opération n’est pas triviale (enfin quand même plus qu’avec les LLM, c’est un peu la limite de la comparaison).
Le 17/07/2025 à 18h27
écart nul, vu que la convolution est juste une opération mathématique qu'on peut implémenter via un algorithme
Modifié le 17/07/2025 à 20h00
Edit : si ce n’était pas clair, mon premier message répondait à celui de psykobar de 13 h 55, et pas à la conversation qui suivait.
Modifié le 17/07/2025 à 18h16
Signaler un commentaire
Voulez-vous vraiment signaler ce commentaire ?