L’IA générative au renfort de la censure chinoise
Censure hyper moderne

Une fuite de données montre qu'un système entraîné sur 133 000 exemples de messages étiquetés renforce le système de censure chinois, lui permettant d'aller bien au-delà d'une censure des principaux filtres mis en place au fil des années.
Le 28 mars à 15h02
3 min
Droit
Droit
Le régime chinois censure depuis longtemps l'accès à Internet de toute personne se trouvant sur son territoire. Encore récemment, on apprenait que Facebook aurait créé un outil de censure pour pouvoir entrer dans ce marché, ou encore que des chercheurs chinois se servaient de Llama pour des usages militaires. Les modèles de langage peuvent aussi permettre au pays dirigé par Xi Jinping d'aller encore plus loin dans la surveillance des communications.
Un serveur non sécurisé
Sur Substack, une personne sous le pseudonyme de NetAskari expliquait en janvier avoir récupéré un jeu de données « fascinant » d'une taille d'environ 300 Go de fichiers JSON. Ceux-ci provenaient d'une base de données Elasticsearch stockée sur un serveur Baidu non sécurisé, précise TechCrunch qui a pu avoir accès aux fichiers. Le média américain ajoute que cela ne prouve pas l'implication de Baidu dans le projet, puisque la base peut provenir de n'importe quel client de l'entreprise.
« Chaque fichier comprend un prompt de classification ainsi qu'une chaîne de contenu correspondante, que j'appellerai la "cible de contenu". L'entrée la plus récente de cette base de données est datée de décembre 2024 », ajoutait NetAskari.
Nos confrères expliquent que celle-ci « révèle que la Chine a mis au point un système d'intelligence artificielle qui renforce sa machine de censure déjà redoutable, allant bien au-delà des tabous traditionnels comme le massacre de la place Tian'anmen ».
133 000 exemples pour entrainer la censure
L'un de ces fichiers contient un prompt avec la définition d'un rôle du LLM lui donnant comme instruction : « en tant qu'analyste méticuleux des données d'opinion publique, tu dois analyser de manière exhaustive le contenu des articles et déterminer la catégorie à laquelle ils appartiennent. L'objectif final est de filtrer l'information pour le travail sur l'opinion publique, les informations importantes étant classées en trois catégories principales : "Dynamique sociale", "Dynamique politique" et "Dynamique militaire" ».
Ces catégories sont définies comme relatives à l'opinion publique et classées en priorités les plus hautes. D'autres catégories sont ensuite définies.
Il est accompagné par une collection de 133 000 exemples de contenus à trier. TechCrunch a publié un extrait de 10 exemples que le média considère comme représentatif. On peut y voir un message déplorant la pauvreté rurale en Chine, un autre de la corruption systémique de la police, un autre soulignant la sévérité des restrictions militaires dans les mers de Chine orientale et méridionale, ou encore la volonté de la Chine d'intercepter les navires revendiquant la « liberté de navigation » dans le détroit de Taïwan.
« Les "contenus cibles" englobent un large éventail de sujets, y compris des titres d'actualité, des commentaires de type médias sociaux, des déclarations gouvernementales et des articles sur les voyages et les loisirs », précise NetAskari.
Peu d'informations ont été trouvées sur les origines de cette base de données. Mais le « travail sur l'opinion publique » fait référence à la propagande et à la censure et est supervisé par l'Administration du cyberespace de Chine, explique à TechCrunch le responsable du programme Asie de l'organisation de défense des droits Article 19, Michael Caster.
L’IA générative au renfort de la censure chinoise
-
Un serveur non sécurisé
-
133 000 exemples pour entrainer la censure
Commentaires (4)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousLe 28/03/2025 à 15h19
Mais après tout, si tu dévoiles les sujets dont il ne faut pas parler, la censure est d'autant plus efficace non ? O h wait ^^
Le 28/03/2025 à 15h20
Le 28/03/2025 à 15h34
Le 28/03/2025 à 16h25