[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer
Du moins, les moteurs externes
Le 13 juin 2013 à 06h50
5 min
Droit
Droit
La Commission nationale pour l'informatique et les libertés (CNIL) a finalement bien voulu libérer un précieux document resté secret depuis mai 2012. Il s’agit de son avis visant un projet de décret en Conseil d’État relatif aux règles déontologiques et à la déclaration publique d’intérêts (DPI) de certains hauts fonctionnaires travaillant dans le secteur de la santé. Jamais publié malgré une première demande CADA, cet avis demande aux moteurs d’aller indexer ailleurs ces informations de première nécessité.
Les DPI sont des déclarations qui permettent de jauger les liens d’une personne avec un tissu social afin de repérer d’éventuels conflits d’intérêts. Le décret dont il est ici question est celui du 9 mai 2012 qui uniformise ces informations. Il vise spécialement les membres des commissions et conseils siégeant auprès des ministres chargés de la santé et de la sécurité sociale, ou ceux des cabinets des mêmes ministres. Bref, toute une série de personnalités de haute tenue dont il serait pour le moins vulgaire de les voir liés aux riches labos.
La CNIL s’était penchée sur ce projet de décret organisant la collecte et la diffusion de ces informations pour demander à ce qu’un rideau soit vite installé entre les moteurs de recherches et des DPI. « La Commission demande que le décret soit modifié afin que les organismes qui procèderont à la mise en ligne soient tenus de mettre en place des mesures visant à empêcher les moteurs de recherche de procéder à une indexation » explique-t-elle dans l’avis qu’elle a fini par nous transmettre (l'avis au format .odt). Le gouvernement a suivi à la lettre cette recommandation : les DPI sont publiées, mais, à la demande de la CNIL, il a interdit leur repérage par les moteurs.
Un an plus tard, la CNIL a suivi cette même « doctrine » avec le Sunshine Act. Ce récent décret oblige cette fois les labos à publier les cadeaux faits aux médecins et autres blouses blanches, d’abord sur leur site puis sur un hypothétique site unique. Dans tous les cas, ces données ne sont pas indexables.
Moteurs externes, moteurs internes
Hervé Machi, directeur des affaires juridiques, internationales et de l’expertise de la CNIL nous a décrit la démarche de la Commission : « Cette interdiction d’indexation ne concerne que les données directement identifiantes et ne s’applique qu’aux moteurs de recherche externes, et non aux moteurs internes propres aux sites des laboratoires, des conseils de l’ordre, etc., ou à celui du site que le ministère mettrait en place et qui permettrait d’avoir l’ensemble des informations compilées pour une personne donnée. »
Ainsi, les moteurs « externes » ne doivent pas pouvoir indexer, mais les moteurs « internes » le peuvent. Avec ces données parcellaires, la CNIL rend plus difficile la possibilité d’avoir des « informations compilées pour une personne donnée ». Le service juridique en vient même à nous présenter quelques astuces pour boucher les narines de Google et autres Bing ou Yahoo :
«- placer un fichier dénommé « robots.txt » à la racine du site d’informations afin d’informer les moteurs de recherche de l’internet que les pages concernées ne doivent pas être indexées
- rendre nécessaire une intervention humaine pour accéder à l’information afin d’éviter la captation des données par un programme informatique d’un moteur de recherche. En l’espèce, des Captchas visuels ou auditifs peuvent être employés. Il s’agit d’une suite de chiffres ou lettres ou opérations à reproduire ou effectuer manuellement
- générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe. »
Un avis secret car suivi par le gouvernement ?
Fait notable, voilà déjà quelques années que les outils savent exploiter une image pour en lire le contenu… Mais peu importe. Cette réponse de la CNIL intervient après quelques résistances et questionnements. Lors d’une première demande effectuée par l'association Formidep, la Commission avait exposé à la CADA dans ce courrier inédit pourquoi elle rechignait à ce que son avis soit connu :
Jaugez la contorsion : Isabelle Falque Pierrotin rappelle que les versions de travail d’un décret ne sont pas communicables. Or, explique la présidente de l'institution, dans la mesure où le gouvernement a tenu compte de l’avis de la CNIL en rendant ces DPI non indexables, « la simple comparaison de l’avis de la CNIL avec le texte publié du décret permet de déduire la version antérieure du projet de décret, non communicable. » En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations. Une vraie crise existentielle, fort heureusement aujourd’hui révolue grâce à quelques demandes insistantes via la CADA...
[MàJ] DPI : la CNIL explique pourquoi les moteurs ne doivent pas tout indexer
-
Moteurs externes, moteurs internes
Commentaires (28)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 12/06/2013 à 06h37
Je comprend pas. Pourquoi empêcher l’indexation de ces documents s’ils sont consultables publiquement?
Le 12/06/2013 à 06h51
je comprend pas non plus cette logique" />" />
Le 12/06/2013 à 06h53
Si une personne ( qui touche en info ) veut indexer pour son propre usage.
Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?
Le 12/06/2013 à 06h57
C’est consultable, mais vous n’avez pas le droit de savoir comment les trouver. Fascinant.
Ne peut t’il pas ignorer les robot.txt et passer outre les éventuels captcha ?
Le robot.txt est purement informatif et ne protège de rien du tout. Le moteur sait juste que l’hébergeur voudrait que le robot n’indexe pas. Mais le robot fait comme il veux.
Quant aux captchas, ben, les bots peuvent les passer, notamment en les faisant remplir par des humains. Quand tu downloades sur les sites de téléchargement, les captchas que tu remplis peuvent servir aux bots. En fait, le site te demande de répondre à un captcha auquel un bot est confronté ailleurs.
Le 12/06/2013 à 07h00
Le 12/06/2013 à 07h12
Le 12/06/2013 à 07h19
Le 12/06/2013 à 07h32
générer des images pour les données directement identifiantes (nom et prénom de la personne) au lieu de les conserver sous forme de texte, l’image ne pouvant être indexée par un moteur de recherche externe.
Il me semble que google y arrive sans souci ?
Peut être fallait il lire qu’il faut faire en sorte d’empêcher les moteurs externes d’indexer l’image ?
En fait, la CNIL jugeait son avis non publiable parce que le gouvernement a suivi ses recommandations.
C’est d’une logique implacable. " />
Le 12/06/2013 à 07h33
Le 12/06/2013 à 07h50
Histoire de compliquer la tache à ceux qui bossent dans l’intelligence économique " />
Le 12/06/2013 à 08h07
Dans la plupart des jeux tu as le droit de jouer, pourtant tu n’as pas le droit de faire jouer un bot à ta place.
Il n’est pas choquant de différencier un accès humain d’un accès machine à des fins de compilation et traitement de masse des données. C’est comme une limite de vitesse sur la route si veux (en terme de puissance de calcul).
Après quand à la faisabilité technique c’est autre chose " />
Le 12/06/2013 à 08h18
Donc l’information est public mais doit être introuvable.
Ils sont trop fort !" /> " />
Le 12/06/2013 à 08h44
Mon dieu! Enfin, ils ont entendu parler de ce fameux fichier!!!!
Mouai, si un moteur de recherche ignore déjà le robot.txt, je le pense suffisamment scrupuleux pour avoir de quoi décoder un captcha (qui se souvient de ce script greasmonkey qui faisait ça pour MU ?) et de quoi convertir une image en texte.
Le 12/06/2013 à 09h23
Le 12/06/2013 à 11h41
Le 12/06/2013 à 12h30
Le 12/06/2013 à 17h15
La logique c’est simple, c’est pour empêcher de faire des recherches qui permettraient de découvrir une structure globale, de faire des stats pour savoir quel labo arrose le plus, quel médecin du quartier reçoit le plus de cadeaux des labos, etc. Là il faut tout faire à la main, captcha par captcha (pas forcément si évidents que ça à décoder par une machine) et passer des mois pour obtenir un résultat.
C’est un peu comme la loi sur la “transparence” pour les élus, on va mettre leurs déclarations de revenus publiques, mais surtout interdit de les transmettre à qui que ce soit.
Les libertés individuelles c’est super important quand on est un député, un médecin ou un labo pharmaceutique. Par contre pour le reste de la population, ça ne pose aucun problème de mettre en place un fliquage de masse avec HADOPI.
En tant que citoyen français j’en ai MARRE.
Le 13/06/2013 à 07h01
Le 13/06/2013 à 07h04
le teste de la MAJ est en noir " /> je voie rien avec mon skin… obliger de sélectionner le texte quoi Où VA LE MONDE
Le 13/06/2013 à 07h13
Le 13/06/2013 à 07h33
Le quotidien de la corruption politique, en fin de compte…
http://www.psycheduweb.fr/wp-content/uploads/2012/08/trois-singes.jpg
" />
Le 13/06/2013 à 07h40
et PCI laisse passer la gentille instrumentation des déficients visuels, alors que rien ne dit que les sites ne seront pas justement accessibles (ils en ont pas l’obligation, pour le public, d’ailleurs ?)
Tout ce que ça empêche, c’est que des robots l’indexent, un journaliste peut bosser sans le cache google ou script (illégal du coup, vu ce qu’il mouline) de récupération de données perso, non ?
Le 13/06/2013 à 07h47
Le 13/06/2013 à 08h04
Ils n’ont qu’à créer un Momo (petit fichier script) avec mot de passe, si tu n’as pas accès au mot de passe, tu ne peux pas lire robot.txt (je dis ça, je ne dis rien) " />
Le 13/06/2013 à 08h07
Le 13/06/2013 à 08h59
Bon ok, on veut bien donner des infos mais il ne faut pas qu’elles soient exploitables : toute l’hypocrisie de la chose " />
Ben oui si tout à chacun est capable de voir qu’on est des vendus, ça ne le fait pas. Donc on donne un nonos à ronger (on déclare) mais ça reste du cosmétique (difficile -pas impossible car un groupement de personnes déterminées peut récolter l’ensemble des infos, ils sous-estiment la puissance du communautaire- d’exploiter les infos parcellaires)
Le 13/06/2013 à 09h11
Le 14/06/2013 à 02h21
Franchement je ne comprend pas comment des documents de déclarations publiques d’intérêts serais en même temps confidentiel, ont marche sur la tete.