Etalab propose un outil open source de pseudonymisation
Le 08 juin 2020 à 08h38
1 min
Logiciel
Le département de la direction interministérielle du numérique (DINUM) chargé de « la conception et la mise en œuvre de la stratégie de l’État dans le domaine de la donnée » a publié la semaine dernière un outil de pseudonymisation alimenté par une intelligence artificielle.
Pour rappel, la différence entre pseudonymisation et anonymisation est importante. Dans le premier cas, il s’agit d’un « traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires ». Les données sont ainsi « indirectement identifiantes ». C’est la technique notamment utilisée par l’application StopCovid.
En plus de la mise en ligne d’un guide expliquant « pourquoi et comment pseudonymiser dans l'administration », Etalab propose désormais un outil open source (licence MIT) utilisant une intelligence artificielle pour pseudonymiser des documents.
Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt (100 ko max). Pour l’instant 158 documents et 7279 phrases ont été traités ainsi.
Le 08 juin 2020 à 08h38
Commentaires (16)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 08/06/2020 à 08h30
#1
Curieuse pratique que d’envoyer à un tiers un document qu’on souhaite pseudonymiser.
Ça me rappelle les services en ligne proposant de changer le format de la clé privée associée à un certificat…
Le site a le mérite d’indiquer qu’il ne faut pas lui envoyer des documents sensibles.
Le 08/06/2020 à 08h44
#2
« Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt »
Et quid de l’OpenDocument, qui est le standard préconisé par le Référentiel Général d’Interopérabilité pour les documents bureautiques ?
Non, parce que le DOC, il est obsolète et abandonné depuis 2006 (ça fait 14 ans !), et le DOCX n’est pas interopérable (et déconseillé par le même RGI, au passage).
C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é
Le 08/06/2020 à 09h19
#3
Le .doc, et plus secondairement le .docx, reste la norme d’usage, c’est à dire le format que la majorité utilise. Dans la plupart des administrations (publiques et privées), tu vas souvent te retrouver avec ce vieux document .doc (celui avec le formatage direct des titres et les alignement fait à base d’espace, d’entrée et de point, tout le monde le connais celui là). Quand quelqu’un t’envoie un document texte, tu as pratiquement toutes tes chance que ce soit un .doc ou un .docx (en dehors de la bubulle des linuxiens)
Autant dire que le .odt, ça a beau être la norme imposée, le pécore moyen s’en branle, l’usage c’est .doc et .docx.
Du coup, pourquoi pas d’odt ? On peut imaginer plusieurs scénario, par exemple la bibliothèque utilisait ne le gère pas, et que ça demande du travail supplémentaire pour le supporter alors qu’ils ont fait ça avec les connaissances et les moyens du bord (le stagiaire qui a codé à l’arrache le webservice sur sa dernière semaine ?).
Le 08/06/2020 à 09h25
#4
Le 08/06/2020 à 10h09
#5
Ciotti et Estrosi désapprouvent cet outil.
Le 08/06/2020 à 12h41
#6
Ne prend pas en charge les formats ouverts pourtant recommandés par le RGI !
Le 08/06/2020 à 12h54
#7
Le 08/06/2020 à 12h58
#8
Après, pour vérifier ce que ça fait réellement, il faut voir dans le XML.
Le 08/06/2020 à 13h11
#9
Le 08/06/2020 à 13h14
#10
Merci, donc intérêt plus que limité on va dire.
Le 08/06/2020 à 13h17
#11
Le 08/06/2020 à 13h22
#12
Le 08/06/2020 à 14h00
#13
Ça veut dire qu’il risque d’y avoir des failles de sécurité et surtout qu’à terme les logiciels ne puissent plus les ouvrir ou les travailler. Bref, une perte des informations. C’est arrive beaucoup aux débuts de l’informatique avec des tas de formats.
Le CSV est un format toujours utilisé qui n’a pas de spécifications, idem pour le txt. Le rtf est un format mort et propriétaire donc à déconseiller (pour en savoir plus, c’est pas super récent mais toujours d’actualité). en plus, le rtf est inutilement lourd.
Le traitement de texte ça recouvre pas mal de concepts :
Bref des tas de choses qui sont codées, ce n’est donc pas “juste” du texte, c’est beaucoup plus.
Le 08/06/2020 à 14h29
#14
J’avoue avoir du mal à cerner les “failles” du RTF. Et à une époque où il n’était pas possible d’ouvrir un ODT sous windows et un DOC sous Linux, il ne restait pas grand chose pour s’échanger des documents enrichis.
[vieuxcon]Ce qui est amusant c’est qu’à te lire, la rétrocompatibilité n’est plus la norme[/vieuxcon]
Après je suis d’accord avec ton lien, le seul moyen universel de transmettre un texte aujourd’hui est le PDF.
Le 08/06/2020 à 14h39
#15
Les limites du RTF plutôt que les failles en fait. Maintenant qu’il existe des tas formats ouverts et des solutions de collaboration en ligne d’une part et que le pdf est devenu un format ouvert vers lequel n’importe quel traitement de texte peut exporter, le format RTF n’a plus aucun intérêt (ce n’était pas le cas il y a encore vingt ans).
La rétrocompatibilité est un problème délicat et ça n’a pas toujours été bien traité (par Microsoft notamment).
Le 08/06/2020 à 15h34
#16