Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning
Pseudonymiser n'est pas anonymiser
Le 10 mai 2023 à 10h16
8 min
Société numérique
Société
Dans le cadre de la loi République numérique de 2016, les administrations françaises ont peu à peu mis en place des procédures d'automatisation de l'ouverture des données publiques. Pour certains documents, parfois nombreux, la pseudonymisation est un passage préalable légal. Une chercheuse en sociologie a publié une enquête sur l'automatisation de ce processus à la Cour de cassation.
Depuis la loi République numérique votée en 2016, l'État doit mettre, selon son article 20, l'ensemble des décisions de justice « à la disposition du public à titre gratuit dans le respect de la vie privée des personnes concernées ».
Pour que cette condition de respect de la vie privée soit prise en compte, la Cour de cassation a été chargée de définir puis de mettre en application des règles de pseudonymisation qui permettent, en même temps, de garder tous les liens logiques (ce qui ne serait pas possible, par exemple, avec un simple biffage des noms).
Camille Girard-Chanudet, doctorante en sociologie au Centre d'étude des mouvements sociaux (Cems) de l'EHESS, a passé 6 mois début 2021 au sein du pôle open data du service de la documentation, des études et du rapport (SDER) de la Cour de Cassation. Elle raconte et analyse, d'un point de vue ethnographique dans un article scientifique publié dans la revue RESET, comment s'est passé la conception d'un outil de pseudonymisation utilisant le machine learning au sein de la Cour de cassation.
La création d'une nouvelle équipe autonome au sein de la Cour
Ce projet d'automatisation de la pseudonymisation des textes juridiques a été géré en interne et financé notamment par Etalab via le programme « Entrepreneurs d’intérêt général » (EIG). La chercheuse explique que le pôle « opendata » de la Cour chargé du projet réunit « l’ensemble des profils nécessaires au développement d’un outil d’IA — là où, pour ce type de projets, tout ou partie des tâches est fréquemment externalisé ».
Une équipe technique a été recrutée spécialement pour le projet : « En tout, ce sont trois développeurs, deux data scientists et un designer qui rejoignent la cour entre 2019 et 2021, avec pour missions successives la construction d’un moteur d’apprentissage automatique de pseudonymisation des décisions ainsi que la conception d’une interface d’annotation. ».
Camille Girard-Chanudet note un décalage entre cette équipe et le personnel habituel de la Cour de Cassation : « Il s’agit en effet de jeunes recrues, essentiellement masculines et issues pour la plupart du secteur privé, dont l’expérience professionnelle est axée vers l’opérationnalité et l’efficience — bien que leur intérêt pour le service public ait constitué un facteur déterminant dans leur recrutement ».
La chercheuse constate une relative autonomie matérielle et opérationnelle de cette équipe technique, symbolisée par le fait que, « contrairement aux autres serveurs de la Cour », le serveur de calcul utilisé pour l'entrainement des algorithmes d'apprentissage automatique « n’est pas géré par le service informatique, mais directement par les data scientists ».
L'annotation internalisée aussi
Même les tâches d'annotation pour l'entrainement de l'algorithme de machine learning ont été effectuées par une équipe interne, des techniciennes et techniciens administratifs (jusqu'à une quinzaine de personnes) « dont les missions s’articulent étroitement à l’expertise juridique des magistrat·es de la Cour », explique Camille Girard-Chanudet. Leur travail consiste notamment à vérifier la pertinence et corriger l'étiquetage en nom, adresse, date de naissance, adresse email... fait par la machine.
« Cette équipe réalise une part essentielle du "travail des données" nécessaire au bon fonctionnement d’un outil d’IA : elle vérifie et corrige à la main l’annotation des décisions de justice afin d’entrainer, puis de corriger, le moteur de pseudonymisation automatique », constate la chercheuse.
Elle insiste sur le fait que « l’existence d’une équipe responsable d’une telle mission au sein de la Cour de Cassation est une spécificité dans le paysage de l’IA : ce type de travail étant fréquemment laissé aux data scientists (avec un rendement limité) ou sous-traité à des plateformes spécialisées. ».
La chercheuse décrit le besoin de diverses stratégies de maintien d'attention (pauses régulières, exercices d'étirements, écoute de musique) de cette équipe pour pouvoir assurer ce travail minutieux mais fastidieux et répétitif.
Une interface graphique a été mise en place en interne pour optimiser leur travail en collaboration avec l'équipe d'annotation, mais celle-ci n'est quand même pas associée pleinement au projet : « les agents de l’équipe d’annotation ne participent pas aux réunions hebdomadaires de l’équipe projet, sont peu informé·es des enjeux et échéances sous-tendant le projet, et pas impliqué·es dans les processus décisionnels le concernant ».
Coordination par l'expertise métier
Ces deux équipes n'ont pas été laissées seules sans une expertise du milieu juridique : « Garante de cet équilibre institutionnel et juridique, et du respect des lignes directrices déterminées par des groupes de travail constitués à ce sujet, une conseillère référendaire fortement qualifiée en gestion de projet est ainsi chargée de la coordination de l’ensemble de l’équipe. Une auditrice la seconde dans le cadrage juridique du projet, guidé par une nécessité d’arbitrage entre impératif de publication (et de lisibilité) des décisions, et respect de la vie privée des personnes physiques impliquées ».
L'article de Camille Girard-Chanudet détaille la collaboration de ces différentes équipes et constate qu'elles sont confrontées à des aller-retour permanents entre logiques conceptuelles et empiriques qui placent « l’équipe d’annotation dans une position particulière pour la mise en œuvre de la pseudonymisation des décisions de justice, dont l’importance ne correspond pas forcément à sa place statutaire dans la pyramide hiérarchique du projet ».
Cette équipe peut parfois exprimer « une certaine méfiance par rapport aux choix effectués en amont ». Et dans les faits, pour la chercheuse, « les activités et réflexions de l’équipe d’annotation revêtent une importance centrale pour la conception et la matérialisation des catégories ».
La doctorante en sociologie fait un constat qu'il est toujours bon de répéter à propos de l'IA : « La machine n’est en effet apte qu’à reconnaître des entités définies, sur la base d’exemples annotés de façon cohérente et homogène ».
Un moteur de pseudonymisation de l'Opendata... en source fermée
En cherchant un peu sur GitHub, on peut retrouver la page correspondant au projet de la Cour de cassation. Il y est expliqué que « 180 000 décisions par an sont collectées dans les bases de données « Jurinet » et « Jurica » tenues par la Cour de cassation ».
Mais que, jusque-là, « sur ces 180 000 décisions, moins de 15 000 étaient diffusées en open data et sur le site Légifrance. Le logiciel d'anonymisation reposant sur un moteur de règles Luxid, qui fonctionnait de janvier 2018 à décembre 2019, dont le taux d'erreur s'approchait de 5%, demandait un temps important de correction manuelle. De plus, les évolutions de ce logiciel étaient chronophages et coûteuses. Il n'était pas adapté pour faire face à l'augmentation et à la diversification du flux ».
L'équipe y détaille donc les spécifications et explique les briques de son nouveau moteur de pseudonymisation : un modèle de langage se basant sur une combinaison de Byte Pair Embeddings et de Flair Embeddings et un modèle de reconnaissance d'entités nommées (Named Entity Recognition, NER).
Le modèle une fois entrainé est utilisé « pour prédire les entités présentes dans de nouvelles décisions de justice » en ajoutant ensuite plusieurs corrections déterministes « qui permettent de corriger les fautes communes et les omissions du modèle ».
L'équipe assure un suivi des performances et un contrôle de qualité de son système pour améliorer son modèle.
Par contre, répondant à un internaute demandant si le code source était ouvert, l'équipe explique que « Pour les raisons de confidentialité nous ne pouvons pas partager ni les données source, ni les modèles LM ou NER ».
Les décisions ainsi pseudonymisées sont actuellement disponibles sur le portail Judilibre. On peut y retrouver les décisions de la Cour de cassation mais aussi, depuis avril 2022, les décisions des cours d'appel. Fin 2023, une première étape de l'open data des décisions des tribunaux judiciaires (hors matière pénale) devrait aussi avoir lieu.
Comment la Cour de cassation a créé son outil de pseudonymisation utilisant le machine learning
-
La création d'une nouvelle équipe autonome au sein de la Cour
-
L'annotation internalisée aussi
-
Coordination par l'expertise métier
-
Un moteur de pseudonymisation de l'Opendata... en source fermée
Commentaires (11)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 10/05/2023 à 12h32
J’ai du mal à comprendre où se trouve la confidentialité dans un code de pseudonymisation. Les données doivent être confidentielles mais le code ne contient normalement pas les données en dur.
En tout cas, c’est dommage qu’un logiciel développé par de l’argent public ne soit pas publié sous licence libre …
Le 10/05/2023 à 13h51
probablement pour ne pas ‘casser’ la méthode de mise en place de pseudo afin de pouvoir déterminer qu’elle juge est plus favorable pour tel type d’infraction.
Le 10/05/2023 à 14h02
Ca fait du bien de voir un article qui ne parle pas d’ IA.
Le “machine learning” et le “deep learning”, ca change.
#sarcasm
Le 11/05/2023 à 09h03
Mais carrément !
Merci pour l’article super intéressant
Le 10/05/2023 à 14h27
À noter qu’ils recrutent des dev full stack s’il y a des intéressés https://www.courdecassation.fr/les-offres-d-emplois-et-de-stages/cdd/developpeurdeveloppeuse-full-stack-0
Le 10/05/2023 à 18h58
en 2015 la cada avait rendu un avis favorable à la divulgation du code source de calcul d’impots considérant que le code source pouvait (sous certaines conditions) être considéré comme un document administratif.
ça pourrait valoir le coup de faire la demande :)
Le 10/05/2023 à 23h24
Dans le monde de la sécurité informatique d’ailleurs, la vraie, l’offuscation est généralement apparentée à de la dissimulation de (potentielle) défaillance : la méthode doit être vérifiable, donc publiée. Seuls les clés/secrets, données en entrée de la méthode vérifiable, sont sensibles.
Je ne comprends pas comment une entité publique peut se prévaloir du secret, qui ne devrait être engagé qu’au seul motif de la protection de personnes, cas par cas. Certainement pas pour des modèles, algorithmes ou logiciels.
J’apparente cela au refus du contrôle de l’entité publique par les citoyens qui sont censés pouvoir l’effectuer.
Depuis toutes ces années, nous devrions pourtant avoir appris que l’opacité, norme du monde économique privé (traitant les personnes/données d’autres), est à la racine d’un grand nombre de dérives, car justement incontrôlé.
Et pourtant…
J’aimerais une prise de conscience commençant par la réalisation qu’à placer l’économie avant la société, la société devient l’économie, et qu’aujourd’hui la société ne sait plus réfléchir qu’avec les réflexes/logiques qu’elle a acquis du monde économique privé.
Nos institutions publiques doivent (re)devenir le fer de lance de la société que l’on souhaite avoir par l’exemplarité.
Le 11/05/2023 à 03h03
Je crois que nous ne parlons pas des même types de procès.
La vie privée doit être protégée. Exemple : une victime de viol devrait avoir le droit d’être anonymisée. Cela devrait même être une condition primordiale avant de rendre public ce genre de procès.
Certains noms ne devraient pas être livrés à la vindicte publique ou à la haine en ligne. Autre exemple, dans le cas de coupables de délits mineurs qui ont pleinement purgé leur peine, ils ont droit à une nouvelle chance, et dans ce cas l’anonymat peut aider à se réinsérer.
Le 11/05/2023 à 11h18
C’est la grosse différence entre une accusation et une condamnation.
Quand tu écoutes une affaire un peu médiatisée du type “Machin accusé de viol”, “Machin accusé de pédophilie” et j’en passe, il est déjà condamné dans l’opinion publique quand bien même la justice finirait par le blanchir. Quand je vois les réactions excessives du type la personne accusée qui perd son emploi, se fait conspuer, démolir socialement, et même condamnée à l’avance (les soupçons énoncés comme étant avérés, et non au conditionnel) c’est l’inverse de ce qu’est l’Etat de droits de mon point de vue.
Et malheureusement, plus ça va, plus on tend vers ceci (surtout avec les volontés de vouloir supprimer la présomption d’innocence pour certains cas, de l’arbitraire pur). Et dans le cas où la plainte est classée sans suites (quand il y en a une, combien de fois y a-t-il des accusations sans plaintes ?), l’affaire a été oubliée par la mémoire collective. Mais le mal a été fait.
Le 11/05/2023 à 16h36
+1, Ce que tu dis me fait fortement penser à l’affaire d’Outreau, avec son monceau d’erreurs et sa chaîne d’incompétence crasse, aux conséquences catastrophiques…
Il faudrait pouvoir anticiper ce genre de dégâts, l’anonymisation des comptes-rendus en ligne est une chose importante, mais bien évidemment ça ne suffit pas : pour mieux respecter la présomption d’innocence, il faudrait pouvoir, durant toute l’enquête et durant le(s) procès, garder secret les noms des présumées victimes, mais aussi ceux des accusés, notamment dans les cas ou certaines accusations s’avèrent fausses, même après appel(s).
Je n’y connais rien en matière juridique, d’autres exprimeraient ça bien mieux que moi, mais pour prolonger le propos, même la presse ne devrait pas être autorisé à dévoiler les noms des personnes privées avant l’annonce du verdict.
Par contre, du côté des personnes occupant des postes à (très) haute responsabilité, des entreprises (telles que Servier, exemple) ou autres entités collectives, je pense que l’anonymat ne servirait à rien et serait même préjudiciable au public.
Le 12/05/2023 à 09h43
Merci pour cet article très intéressant.