L’IA générative au renfort de la censure chinoise

Censure hyper moderne

Illustration : Flock

Martin Clavey

Le 28 mars 2025 à 15h02

Une fuite de données montre qu’un système entraîné sur 133 000 exemples de messages étiquetés renforce le système de censure chinois, lui permettant d’aller bien au-delà d’une censure des principaux filtres mis en place au fil des années.

L’IA générative au renfort de la censure chinoise

Censure hyper moderne

Illustration : Flock

Martin Clavey

Le 28 mars 2025 à 15h02

Droit

3 min

Le régime chinois censure depuis longtemps l’accès à Internet de toute personne se trouvant sur son territoire. Encore récemment, on apprenait que Facebook aurait créé un outil de censure pour pouvoir entrer dans ce marché, ou encore que des chercheurs chinois se servaient de Llama pour des usages militaires. Les modèles de langage peuvent aussi permettre au pays dirigé par Xi Jinping d’aller encore plus loin dans la surveillance des communications.

Un serveur non sécurisé

Sur Substack, une personne sous le pseudonyme de NetAskari expliquait en janvier avoir récupéré un jeu de données « fascinant » d’une taille d’environ 300 Go de fichiers JSON. Ceux-ci provenaient d’une base de données Elasticsearch stockée sur un serveur Baidu non sécurisé, précise TechCrunch qui a pu avoir accès aux fichiers. Le média américain ajoute que cela ne prouve pas l’implication de Baidu dans le projet, puisque la base peut provenir de n’importe quel client de l’entreprise.

« Chaque fichier comprend un prompt de classification ainsi qu’une chaîne de contenu correspondante, que j’appellerai la « cible de contenu ». L’entrée la plus récente de cette base de données est datée de décembre 2024 », ajoutait NetAskari.

Nos confrères expliquent que celle-ci « révèle que la Chine a mis au point un système d’intelligence artificielle qui renforce sa machine de censure déjà redoutable, allant bien au-delà des tabous traditionnels comme le massacre de la place Tian’anmen ».

133 000 exemples pour entrainer la censure

L’un de ces fichiers contient un prompt avec la définition d’un rôle du LLM lui donnant comme instruction : « en tant qu’analyste méticuleux des données d’opinion publique, tu dois analyser de manière exhaustive le contenu des articles et déterminer la catégorie à laquelle ils appartiennent. L’objectif final est de filtrer l’information pour le travail sur l’opinion publique, les informations importantes étant classées en trois catégories principales : « Dynamique sociale », « Dynamique politique » et « Dynamique militaire » ».

Ces catégories sont définies comme relatives à l’opinion publique et classées en priorités les plus hautes. D’autres catégories sont ensuite définies.

Il est accompagné par une collection de 133 000 exemples de contenus à trier. TechCrunch a publié un extrait de 10 exemples que le média considère comme représentatif. On peut y voir un message déplorant la pauvreté rurale en Chine, un autre de la corruption systémique de la police, un autre soulignant la sévérité des restrictions militaires dans les mers de Chine orientale et méridionale, ou encore la volonté de la Chine d’intercepter les navires revendiquant la « liberté de navigation » dans le détroit de Taïwan.

« Les « contenus cibles » englobent un large éventail de sujets, y compris des titres d’actualité, des commentaires de type médias sociaux, des déclarations gouvernementales et des articles sur les voyages et les loisirs », précise NetAskari.

Peu d’informations ont été trouvées sur les origines de cette base de données. Mais le « travail sur l’opinion publique » fait référence à la propagande et à la censure et est supervisé par l’Administration du cyberespace de Chine, explique à TechCrunch le responsable du programme Asie de l’organisation de défense des droits Article 19, Michael Caster.

Commentaires (4)

Abonnez-vous pour prendre part au débat

Cet article est en accès libre, mais il est le produit d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles d'un média expert

Profitez d'au moins 1 To de stockage pour vos sauvegardes

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

linkin623 Premium

Le 28/03/2025 à 15h19

On s'en doutait un peu. Après, le côté serveur pas sécurisé, là c'est plus surprenant.

Mais après tout, si tu dévoiles les sujets dont il ne faut pas parler, la censure est d'autant plus efficace non ? O h wait ^^

MisterDams Premium

Le 28/03/2025 à 15h20

Ministère de la Vérité 2.0

wanou Premium

Le 28/03/2025 à 15h34

Bientôt le ministère de l'amour 1.0

Buck

Le 28/03/2025 à 16h25

On parle de la Chine, mais sous l'excuse d'efficacité, c'est un jeu de censure pure et simple que le DOGE est en train d'appliquer à l'aide d'IA, pour aligner tout le monde sous l'idéologie de la tête de l'État.