Connexion
Abonnez-vous

Etalab propose un outil open source de pseudonymisation

Etalab propose un outil open source de pseudonymisation

Le 08 juin 2020 à 08h38

Le département de la direction interministérielle du numérique (DINUM) chargé de « la conception et la mise en œuvre de la stratégie de l’État dans le domaine de la donnée » a publié la semaine dernière un outil de pseudonymisation alimenté par une intelligence artificielle.

Pour rappel, la différence entre pseudonymisation et anonymisation est importante. Dans le premier cas, il s’agit d’un « traitement de données personnelles réalisé de manière à ce qu'on ne puisse plus attribuer les données relatives à une personne physique sans avoir recours à des informations supplémentaires ». Les données sont ainsi « indirectement identifiantes ». C’est la technique notamment utilisée par l’application StopCovid.

En plus de la mise en ligne d’un guide expliquant « pourquoi et comment pseudonymiser dans l'administration », Etalab propose désormais un outil open source (licence MIT) utilisant une intelligence artificielle pour pseudonymiser des documents. 

Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt (100 ko max). Pour l’instant 158 documents et 7279 phrases ont été traités ainsi. 

Le 08 juin 2020 à 08h38

Commentaires (16)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

Curieuse pratique que d’envoyer à un tiers un document qu’on souhaite pseudonymiser.

Ça me rappelle les services en ligne proposant de changer le format de la clé privée associée à un certificat…



Le site a le mérite d’indiquer qu’il ne faut pas lui envoyer des documents sensibles.

votre avatar

« Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt »

Et quid de l’OpenDocument, qui est le standard préconisé par le Référentiel Général d’Interopérabilité pour les documents bureautiques ?



Non, parce que le DOC, il est obsolète et abandonné depuis 2006 (ça fait 14 ans !), et le DOCX n’est pas interopérable (et déconseillé par le même RGI, au passage).



C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é

votre avatar

Le .doc, et plus secondairement le .docx, reste la norme d’usage, c’est à dire le format que la majorité utilise. Dans la plupart des administrations (publiques et privées), tu vas souvent te retrouver avec ce vieux document .doc (celui avec le formatage direct des titres et les alignement fait à base d’espace, d’entrée et de point, tout le monde le connais celui là). Quand quelqu’un t’envoie un document texte, tu as pratiquement toutes tes chance que ce soit un .doc ou un .docx (en dehors de la bubulle des linuxiens)

Autant dire que le .odt, ça a beau être la norme imposée, le pécore moyen s’en branle, l’usage c’est .doc et .docx.



Du coup, pourquoi pas d’odt ? On peut imaginer plusieurs scénario, par exemple la bibliothèque utilisait ne le gère pas, et que ça demande du travail supplémentaire pour le supporter alors qu’ils ont fait ça avec les connaissances et les moyens du bord (le stagiaire qui a codé à l’arrache le webservice sur sa dernière semaine ?).

votre avatar







Trit’ a écrit :



« Vous pouvez également utiliser une version en ligne en uploadant un fichier doc, docx ou txt »

Et quid de l’OpenDocument, qui est le standard préconisé par le Référentiel Général d’Interopérabilité pour les documents bureautiques ?



Non, parce que le DOC, il est obsolète et abandonné depuis 2006 (ça fait 14 ans !), et le DOCX n’est pas interopérable (et déconseillé par le même RGI, au passage).



C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é





Malgré le texte, en fait t’arrives à lui faire manger de l’odt.



Par contre, je lui ai fait manger mon cv et le seul truc qu’il anonymise c’est Office <img data-src=" />:



Nb: malheureusement, tu trouves encore pas mal de .doc en circulation.


votre avatar

Ciotti et Estrosi désapprouvent cet outil.

votre avatar

Ne prend pas en charge les formats ouverts pourtant recommandés par le RGI !

votre avatar







Trit’ a écrit :



C’est fou, ça ! On a (et depuis longtemps, en plus !) un format ouvert en plus d’être standardisé ISO depuis des lustres, utilisable par tous librement et sans avoir de frais de licences à payer pour ça, et non : il faut encore que des logiciels, en 2020, ne soient pas capables de le prendre en charge car ils préfèrent continuer à utiliser des formats fermés et obsolètes. è__é&nbsp;





&nbsp; Tout à fait. Le .doc n’est plus maintenu depuis 2014.





ndjpoye a écrit :



Malgré le texte, en fait t’arrives à lui faire manger de l’odt.





Proprement (je veux dire, il respecte le document) ?.



Sinon, on peut décocher l’option “Utiliser les donnés d’identités” dans les propriétés de LibreOffice qui éliminent le nom de l’auteur ou utiliser Grammalecte (le correcteur propose aussi ça)&nbsp; et modifier le nom de l’auteur ce qui “pseudonymie” le document sans l’anonymiser à l’export en pdf.


votre avatar

Après, pour vérifier ce que ça fait réellement, il faut voir dans le XML.

votre avatar







numerid a écrit :



Proprement (je veux dire, il respecte le document) ?.





L’aperçu t’enlèves tous ce qui concerne la présentation. Mais j’obtiens le même résultat (texte et présentation) qu’avec le docx équivalant.


votre avatar

Merci, donc intérêt plus que limité on va dire.

votre avatar







numerid a écrit :



Merci, donc intérêt plus que limité on va dire.





De rien.

Surtout qu’il m’a rien dégagé de personnel dans le texte, il a juste voulu anonymiser “MS office” par “ MS O”. transpi:



Encore un coup des libriste ça <img data-src=" />



Nb : j’ai un prénom courant, qui ne veut rien dire d’autre, donc je vois pas pourquoi il n’y arriverait pas.


votre avatar







numerid a écrit :



(…)   Tout à fait. Le .doc n’est plus maintenu depuis 2014. (…)





Ca veut dire quoi obsolète pour un format de texte ?

J’utilise encore des txt/csv ou même, fou que je suis, des rtf quand je veux être universel.


votre avatar

Ça veut dire qu’il risque d’y avoir des failles de sécurité et surtout qu’à terme les logiciels ne puissent plus les ouvrir ou les travailler.&nbsp; Bref, une perte des informations. C’est arrive beaucoup aux débuts de l’informatique avec des tas de formats.



Le CSV est un format toujours utilisé qui n’a pas de spécifications, idem pour le txt. Le rtf est un format mort et propriétaire donc à déconseiller (pour en savoir plus, c’est pas super récent mais toujours d’actualité). en plus, le rtf est inutilement lourd.



Le traitement de texte ça recouvre pas mal de concepts :







  • le codage des caractères (privilégier l’unicode) ;

  • la structuration du texte ;

  • sa mise en forme ;

  • des champs et tout un tas d’autres informations.



    Bref des tas de choses qui sont codées, ce n’est donc pas “juste” du texte, c’est beaucoup plus.

votre avatar

J’avoue avoir du mal à cerner les “failles” du RTF. Et à une époque où il n’était pas possible d’ouvrir un ODT sous windows et un DOC sous Linux, il ne restait pas grand chose pour s’échanger des documents enrichis.



[vieuxcon]Ce qui est amusant c’est qu’à te lire, la rétrocompatibilité n’est plus la norme[/vieuxcon]



Après je suis d’accord avec ton lien, le seul moyen universel de transmettre un texte aujourd’hui est le PDF.

votre avatar

Les limites du RTF plutôt que les failles en fait. Maintenant qu’il existe des tas formats ouverts et des solutions de collaboration en ligne d’une part et que le pdf est devenu un format ouvert vers lequel n’importe quel traitement de texte peut exporter, le format RTF n’a plus aucun intérêt (ce n’était pas le cas il y a encore vingt ans).



La rétrocompatibilité est un problème délicat et ça n’a pas toujours été bien traité (par Microsoft notamment).

votre avatar







Tandhruil a écrit :



Ca veut dire quoi obsolète pour un format de texte ?

J’utilise encore des txt/csv ou même, fou que je suis, des rtf quand je veux être universel.





Comme le dit&nbsp;numerid : risque de ne plus pouvoir ouvrir (ne parlons même pas d’enregistrer) ces formats.

Tiens, exemples : ayant connu Windows avec la version 3.1 quand j’avais même pas 10 ans, j’ai beaucoup utilisé le petit traitement de texte intégré Write, qui enregistrait ses fichiers au format WRI. Ben, j’ai longtemps dû garder ce programme sur les versions suivantes (Write fonctionne toujours sous Windows 32 bits, du moment que la couche NTVDM est installée, ce qui n’est plus le cas par défaut depuis Windows 8.1), car même WordPad sous Windows 9x n’enregistrait pas dans le même format WRI.

Après, mon père ne travaillait pas avec la suite Office, mais avec l’intégré moins cher qu’était Works (depuis la version 2 pour DOS). Là encore, on parle de formats spécifiques à ce logiciel (et pire, à une version donnée de ce logiciel : quand mon père, passé à Works 3 pour Windows, devait enregistrer des fichiers pour son ordi au boulot, il devait enregistrer dans le format Works 2 car ça avait beau être des textes WPS ou des tableurs WKS, ces fichiers n’étaient pas lisibles dans Works 2 s’ils étaient directement enregistrés au format Works 3).



Le RTF ? Oui, j’ai entrepris de convertir la plupart de mes textes Write dans ce format, avant de faire une nouvelle migration généralisée de mes vieux documents vers l’OpenDocument. J’ai pu me rendre compte que, par chance, LibreOffice sait ouvrir correctement les vieux formats Write et Works non encore migrés. Mais c’était pas garanti a priori, et qui sait quand The Document Foundation va cesser leur prise en charge, ne serait-ce qu’en lecture ? Et quand cela sera-ce le tour des vieux formats DOC, XLS, PPT d’avant Office 2007, y compris dans les produits MS eux-mêmes ?



TXT, le texte simple, oui : c’est basique, mais il faut encore faire gaffe au format de retour à la ligne (UNIX, Windows ou Mac OS Classic ?).

CSV ? Son problème est le même que pour RTF : il n’y a pas de norme bien établie pour ces formats, ce qui peut causer des soucis d’affichage selon le logiciel utilisé. Mais à défaut de mieux, oui, ils sont assez passe-partout.



C’est pour ça qu’il importe d’enregistrer ses données dans des formats ouverts et garantis pérennes dans le temps (ce qui est le cas de l’OpenDocument, mais pas des formats MS). Sinon, tu risques de te trouver dans une situation ou tu auras besoin ou juste envie de relire un vieux fichier créé il y a des années, mais tu ne le pourras pas, car aucun logiciel actuel ne peut lire son format abandonné entre-temps.


Etalab propose un outil open source de pseudonymisation

Fermer