Connexion Premium

Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue

Biaisés par la Chine

Avec son contrôle sur l’information, la Chine biaise les chatbots dans sa langue

Kayla-Kozlowski-Unsplash

La propagande chinoise influence le milieu de l’IA non seulement via les modèles que ses entreprises créent mais aussi via les données d’entrainement des autres modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis en 2026. Une étude montre qu’ils utilisent massivement la propagande chinoise comme données d’entrainement, et recrachent sans problème les mensonges du régime lorsqu’ils sont interrogés en chinois.

Quand est arrivé le modèle Deepseek R1 l’année dernière, on imaginait bien que les résultats de ce modèle seraient influencés par le gouvernement autoritaire chinois qui a le contrôle sur les paysages de la tech de son pays. Ainsi, on a pu rapidement constater une censure concernant les sujets sur Taïwan, la répression de la place de Tian’Anmen en 1989 ou sur Xi Jinping.

Mais qu’en est-il de l’influence de Pékin sur d’autres modèles qui ne sont pas créés par des entreprises dépendantes du pouvoir chinois ? Dans une étude publiée récemment dans la revue scientifique Nature, des chercheuses et chercheurs de plusieurs universités américaines montrent que l’État chinois a une influence importante de façon indirecte sur les résultats de modèles n’étant pas contrôlés par la Chine. L’étude est aussi accessible sur un site hébergé sur GitHub.

Ainsi, des modèles comme Claude Opus 4.7, gemini-3.1-pro ou GPT-5.5 sortis cette année sont toujours influencés sur les questions concernant la Chine quand ils sont utilisés avec des langues chinoises. Ils montrent même que l’influence de l’État chinois est croissante. Les auteurs ont découpé leurs travaux en six parties.

La propagande comme données d’entrainement

D’abord, dans une première étude, ils ont montré que les textes rédigés par le département de la propagande de la Chine apparaissent très fréquemment dans les ensembles de données multilingues courants utilisés pour entrainer les modèles.

Ils ont notamment étudié CulturaX, un sous-ensemble « nettoyé, immense et public » de Common Crawl destiné à « démocratiser les grands modèles de langage pour 167 langues ». « Par rapport à la moyenne générale, un pourcentage remarquablement élevé (3,28 à 23,98 %) des données d’entraînement mentionnant des dirigeants et des institutions politiques correspond à des textes manipulés par l’État », expliquent-ils concernant les documents en chinois contenus dans CulturaX.

Les modèles les plus récents régurgitent le plus la propagande chinoise

Ensuite, ils ont montré que les modèles commerciaux régurgitent des phrases venant de la propagande chinoise, ce qui montre qu’ils ont été entraînés dessus. En parallèle, ils ont vérifié qu’entrainer un modèle sur la propagande augmentait les réponses pro-autoritarisme, ce qu’on pouvait imaginer.

« Les modèles les plus récents et les plus puissants affichent des taux de mémorisation plus élevés », commentent les chercheurs. Ainsi, claude-opus-4.6, gpt-5.5 et claude-opus-4.7 régurgitent le plus de propagandes chinoises, même deepseek-v3.2 et deepseek-v4-pro sont battus :

Si les données d’entrainement des modèles semblent intégrer massivement de la propagande chinoise, quelle en est la conséquence sur les résultats ? Sans surprise, tous les modèles sont influencés. Évalués de façon automatique via un LLM, ils répondent tous davantage en adéquation avec la propagande chinoise quand ils sont interrogés en chinois qu’en anglais. Et encore une fois, c’est d’autant plus vrai que le modèle est récent : claude-opus-4.6, gpt-5.4, gpt-5.5, gemini-3.1-pro et claude-opus-4.7 sont particulièrement influencés.

Notons que les chercheurs mesurent ici un ratio entre l’alignement en chinois et en anglais avec la propagande chinoise. DeepSeek V4 Pro reprenant cette propagande aussi en anglais, son ratio est plus bas que les autres, mais ça ne veut pas dire qu’il relaie moins la propagande du régime en chinois.

Ils ont répliqué ce test sur des prompts d’utilisateurs réels faisant référence à Xi Jinping ou au Parti Communiste chinois issus du sous-ensemble en chinois de l’ensemble de données WildChat (un dataset sur l’utilisation de ChatGPT), de Baidu Zhidao Q&A (l’équivalent chinois de Yahoo Answers) et de Zhihu (l’équivalent chinois de Quora). «Tous les modèles commerciaux ont montré une opinion plus favorable à l’égard des dirigeants et des institutions chinois lorsque les questions étaient posées en chinois plutôt qu’en anglais », expliquent-ils.

La liberté de la presse d’autant plus importante

Enfin, dans leur étude, ils ont élargi le focus pour étudier une éventuelle généralisation à d’autres pays autoritaires. « Dans les 37 pays où une langue est dominante, les LLM alimentés par des requêtes dans la langue cible principalement utilisée dans le pays concerné produisent des réponses plus favorables au régime lorsque la liberté de la presse est faible. Les pays situés en haut du classement de la liberté de la presse ne présentent guère de différence par rapport à la référence en anglais, et dans certains cas, on observe même une légère corrélation négative, ce qui suggère que ce phénomène dépasse le cas de la Chine », expliquent-ils.

Commentaires (1)

votre avatar
En parallèle, ils ont vérifié qu’entrainer un modèle sur la propagande augmentait les réponses pro-autoritarisme, ce qu’on pouvait imaginer.
Shit in, shit out.