Le ministère de la Justice met un terme à son algorithme prédictif Datajust
Le 17 janvier 2022 à 09h00
3 min
Droit
Droit
Acteurs Publics a appris que le ministère de la Justice avait acté l’abandon du développement en interne de son algorithme DataJust, face à la complexité du chantier. Ce, alors que le Conseil d’État venait tout juste de rejeter le recours déposé par les opposants au projet.
Son expérimentation, prévue pour une durée de deux ans, avait démarré début 2020 pour passer au crible la jurisprudence en matière de préjudices corporels afin d’établir un référentiel de l’indemnisation à laquelle les victimes peuvent prétendre, rappelle AP :
« Pour entraîner l’algorithme DataJust, le ministère était autorisé à aspirer une large palette de données personnelles issues de ces décisions de justice, à l’exclusion des noms des parties : lieux de résidence, dates de naissance, genre, situations professionnelle et financière, condamnations pénales, nature et ampleur de l’atteinte à l’intégrité, à la dignité ou à l’intimité, dépenses de santé, avis des experts médicaux… Autant de données sensibles mais utiles à l’algorithme d’apprentissage automatique pour caractériser le lien entre le montant de l’indemnité et le préjudice corporel et en tirer des “règles” récurrentes. »
Or, non seulement le projet aurait été accueilli « pour le moins froidement par les professionnels du droit », mais la base de données sur laquelle l’algorithme était entraîné était « biaisée car incomplète, en l’absence des décisions de première instance notamment ».
Surtout, « le préjudice corporel est lui-même intrinsèquement très compliqué, avec 40 dimensions à prendre en compte, et la mobilisation de moyens [notamment pour étudier et prévenir les biais algorithmiques, ndlr] était trop conséquente pour atteindre un niveau de performance indiscutable », souffle une source aux faits du dossier.
Le ministère réfléchit encore à « un moyen légal de sauver les données collectées dans le cadre de l’expérimentation – plutôt que de les supprimer, comme l’exige le décret de création – et d’en ouvrir l’accès sous conditions à des chercheurs » pour qu’ils poursuivent ou mènent leurs propres travaux, conclut AP.
Le 17 janvier 2022 à 09h00
Commentaires (11)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 17/01/2022 à 11h42
Je suis assez partagé, je pense quand même que ce jeu de données devrait être correctement anonymisé et conservé pour la science.
Ensuite une IA sur un truc aussi délicat qu’une décision de justice, pourquoi pas, mais alors uniquement en soutien d’un vrai juge.
On le voit avec google, à ses débuts l’algo de web-ranking faisait parfaitement le taf fasse à un altavista / yahoo / lycos…
Le fait est qu’avec le temps l’algo a été assimilé et utilisé à son insu ce qui a fait naitre la profession de SEO et le spam de commentaires / forums. 20ans plus tard l’algo est devenu contre-productif, et je pense qu’on a de moins bons résultats en 2022 avec google (qui pousse toujours les mêmes résultats), qu’en 2002 avec altavista qui n’implémentait aucune logique de ranking des résultats.
Bref si on applique cette historique à un algo / IA sur la justice, on risque de se retrouver avec des consultants “optimiseur judiciaire”, dont le rôle sera de tout faire pour avoir un bon profil dans “datajust” en cas de litige…
Le 17/01/2022 à 12h43
Compliqué, 40 dimensions à prendre en compte…
Je comprends pas bien : c’est pas justement tout l’intérêt et toute l’utilité d’un algorithme de savoir faire du multifactoriel ?
Le 17/01/2022 à 13h28
Y’a pas de magie, il faut bien que quelqu’un l’écrive, l’algo en question. Or là, ils ont jugé que c’était trop compliqué d’écrire quelque chose qui aurait des résultats satisfaisants surtout si les données de bases sont biaisés.
Vu le domaine touché, j’imagine bien toute la complexité que peut prendre ce genre de projet.
En gros, pour l’instant ils sont faces à un mur donc ils stoppent. Je trouve ça assez légitime pour le coup.
Le 17/01/2022 à 13h56
En fait, ils voulaient nourrir une IA pour qu’elle découvre les règles à appliquer à partir des cas fournis.
On peut comprendre qu’avec 40 dimensions, elle ait eu du mal.
En fait, c’est le contraire d’un algorithme, qui lui est écrit par un humain.
Ils auraient été incapable de fournir l’algo comme pour toute décision d’IA de ce type.
Et je pense que la vérification du résultat aurait elle aussi été plutôt complexe (pour ne pas dire impossible).
Le 17/01/2022 à 13h36
Puis c’est chaud d’expliquer a une victime que “le programme a décidé que votre préjudice corporel vaut un tel montant”.
C’est parfois très compliqué a accepter quand c’est donné par un juge, mais au moins avec lui on peut se dire qu’il a fait une fleure en donnant un peu plus que le montant habituel.
Le 17/01/2022 à 13h37
Mouais.
Quand tu vois les pretium doloris que donnent les juges en général, je connais personne qui n’ai pas eu la haine en les recevant.
Le 17/01/2022 à 13h42
Oui oui je sais, j’ai été dans ce cas.
Mais c’est plus “humain” qu’un programme
Le 17/01/2022 à 15h57
Dans le médical, quand on parle de “Clustering high-dimensional data” on parle de plusieurs milliers de dimensions. Alors 40… bof… c’est pas énorme.
Ca m’a l’air surtout d’une excuse pour d’autres problèmes. Le plus probable étant qu’il n’y a pas de modèle… comprendre par là que la base de départ, c’était de la loterie.
Le 17/01/2022 à 16h28
L’équipe en charge déclare deux choses :
“la base de données sur laquelle l’algorithme était entraîné était biaisée”
=> Les données étaient biaisées et il était donc impossible d’en tirer un résultat satisfaisant
“le projet a été accueilli pour le moins froidement par les professionnels du droit”
=> On peut en conclure que pas grand monde dans le milieu n’était chaud pour continuer à mettre des ressources sur ce projet
Deux très bonnes raisons d’arrêter les frais.
Si vous avez d’autres informations sur ce qui s’est passé, donnez-les mais les insinuations malveillantes sans fondements sont malvenues.
Le 17/01/2022 à 16h58
Je travaille dans l’industrie médicale. On a plusieurs projets qui font de la clusterisation de données biomédicales multi-dimensions. Pour être exact on a des millions de résultats en 35 dimensions qu’on classifie dans 9 clusters. On fait ca depuis +10 ans. Ca n’avait rien d’insurmontable techniquement à l’époque (c’était juste long). Donc ca l’est encore moins ajd.
Dire que “c’est biaisé, ca ne donne pas de résultat pertinent” ca ne peux impliquer qu’une seule chose: les données ne suivent pas un modèle séparable (linéaire ou non). D’où mon résumé (certes caustique): la base de départ, c’était de la loterie.
Le 17/01/2022 à 19h51
Pas exactement. L’article dit “biaisé car incomplet”, mais il ajoute : “Surtout, compliqué car 40 facteurs…”.
Le “surtout” ici laisse à penser que c’est la raison principale.