Les données personnelles de 10 000 allocataires de la CAF disponibles en ligne
Le 06 janvier 2023 à 05h53
1 min
Internet
Internet
La CAF de Gironde a soumis un fichier comprenant les données personnelles de 10 204 allocataires à son prestataire de formation parisien. Si les noms, prénoms et codes postaux des bénéficiaires avaient été supprimés, il restait pas moins de 181 points de données sur chacun d’entre eux, ce qui a rendu simple leur ré-identification par la cellule enquête de Radio France.
Le prestataire, qui avait rendu le fichier disponible sur son site internet, pensait que les données étaient fictives.
Le 06 janvier 2023 à 05h53
Commentaires (43)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 06/01/2023 à 07h01
wahou
Le 06/01/2023 à 07h22
La boulette de l’année :)
Le 06/01/2023 à 08h12
Je viens de recevoir des spams a l’adresse mail que j’avais a la CAF de Gironde, je suppose que j’ai tiré le gros lot…
Y’a un moyen de vérifier si c’est bien de la que vient la fuite ?
Le 06/01/2023 à 09h15
“La CAF de Gironde va informer les 10 204 allocataires concernés” dit France Info.
Mais tu l’es probablement. Je ne crois pas à une coïncidence.
Le 06/01/2023 à 08h37
« Chef, j’ai glissé ! »
Le 06/01/2023 à 08h54
Joli, j’imagine que ça a fait l’objet d’une enquête de la CNIL ?
Le 06/01/2023 à 08h59
oupsi ….
Le 06/01/2023 à 09h14
Problème avec les marchés publics: on se retrouve avec des prestataires de daube.
Le 06/01/2023 à 09h21
Problème avec les services publics : on se retrouve avec des incompétents qui font n’importe quoi sans sanctions. Ca marche aussi …
Au-delà du troll, à quel moment un organisme envoie un jeu de données réelles à un prestataire pour des formations ??? Le prestataire n’a même pas envisagé (à juste titre) que ce ne soit pas des données fictives.
Le 06/01/2023 à 09h28
Oh, je pense que c’est juste plus simple d’extract des données existantes que de se faire chier à créer des données fictives
Le 06/01/2023 à 09h30
Oui, surtout pour plus de 10000 entrées.
Le 06/01/2023 à 09h47
En plus de l’anonymisation indiquée sur les noms, il aurait dû y avoir pseudonymisation sur le reste des données pour réduire les risques de ré-identifications.
Et elle n’a visiblement pas informé son prestataire de la confidentialité des données si celui-ci les a publié publiquement.
La CAF s’est complètement chiée dessus dans cette histoire j’ai l’impression.
Le 06/01/2023 à 09h52
Dans mon entreprise, sur les environnements de développement et de préproduction on utilise des données réelles. Il est impossible de reconstruire des données fictives en si grand nombre (ici 10000 allocataires ayant chacun possiblement 180 données liées soient plus d’un million et demi de données).
Le 06/01/2023 à 10h23
Pour un environnement interne de pré-prod ça peut s’envisager, et encore avec des mesures de précautions pour s’assurer que rien ne sorte et que les données soient supprimées lorsque plus nécesssaires.
Des données personnelles vers un prestataire de formation, c’est n’importe quoi. Déjà quelle formation nécessite absolument un jeu de données avec 180 données différentes et plus de 10000 entrées ? Et si c’est vraiment le cas, ça se prépare et suivant la typologie ça peut être assez simple, notamment avec de l’aléatoire sur des listes (prénom, nom, code postal, …).
Le 06/01/2023 à 12h57
Il s’agissait d’une formation au langage R pour les statisticiens de la CAF, donc en soit qu’il y ait une besoin d’un aussi gros jeu de données, ça n’est pas surprenant. Maintenant, on peut effectivement s’interroger sur l’utilisation de données réelles ou en tout cas pas assez anonymisées/pseudonymisées, ainsi que sur les relations avec le prestataire, à qui on aurait dû préciser qu’il s’agissait de données réelles et encadrer le transfert.
Le 06/01/2023 à 13h36
En préprod tu peux récupérer une partie des données (encore que légalement j’ai un gros doute). Mais dire qu’on ne peut pas générer ça c’est de la mauvaise foi. Chez nous les dev on créer un script qui génère plein d’utilisateurs (+5k), mais c’est sûr que ça coûte du temps.
Le 08/01/2023 à 07h44
Un simple tri des colonnes dans Excel suffit à pseudo anonymiser en mélangeant nom / prénom / date de naissance…
il reste ensuite à virer les colonnes perso (téléphone, no de sécu, email…) bref c’est quand même pas trés compliqué, prend disons 30min, et 10k entrées dans excel c’est absolument quedal !
Le 06/01/2023 à 09h50
Ah parce que tu penses que ce genre d’erreur n’aurait jamais pu arriver avec des fonctionnaires ?
Le 06/01/2023 à 09h54
Sauf que les employés de la CAF (et aussi de l’urssaf, sécu…) sont de droits privés, ils ne sont pas fonctionnaires.
Le 06/01/2023 à 11h15
oui c’était bien le sens de la remarque de Wosgien et donc de ma réponse.
Le 06/01/2023 à 16h41
Là c’est surtout la CAF qui a merdé. A aucun moment ce n”est une bonne idée de fournir des données réelles à des fins de formation…
Le 06/01/2023 à 19h12
Inventer des milliers de données est un travail qui demande déjà d’avoir conscience des enjeux de protection des données. Dans toutes les administrations, on gagne du temps comme on peut, c’est bien connu. Pour schématiser (et franchement parfois, c’est la triste réalité), on produit des tableaux Excel, des données “chiffrées”, c’est tout ce qui compte du moment que personne ne se plaint. On va au plus simple, au plus rapide, on rationalise le temps.
Il y a eu un quiproquo :
Tous le monde se simplifie la vie, et fait des économies. Et entre nous : ça serait passé ni vu ni connu si le service Enquête de Radio France n’avait pas révélé ces faits.
Le 06/01/2023 à 19h31
Ca dépend.
Si le jeu de données est situé sur un environnement de formation proprement isolé et que le personnel formé est accrédité pour le manipuler, ça passe du point de vue RGPD à mes yeux si le responsable du traitement applique les mêmes exigences niveau CID que la production. Il y a des cas d’usage où la donnée réelle est nécessaire, notamment pour valider que les règles de gestion s’appliquent bien tout au long du traitement métier. Le risque d’une qualif avec des jeux de données simulés est qu’elle soit biaisée et non représentative et entraîne plus tard des incidents de production qui auraient pu être évités.
J’ai eu l’occasion de faire plusieurs fois des migrations de données d’un ancien système vers un nouveau, et donc du développer la reprise de données qui va avec. Pour développer la procédure de RDD, il fallait un jeu de données prenant les différentes règles de gestion possibles exigées par le métier. Sur l’env de dev, évidemment j’avais que de la merde insérée à la main pour initialiser la procédure.
Mais au moment de la qualification de la reprise, le métier m’avait filé une liste d’enregs représentant leurs besoins. Et histoire d’avoir une campagne plus représentative, j’ajoutais systématiquement une sélection d’une dizaine de milliers d’entrées aléatoires. Et c’était des données confidentielles de l’entreprise (pas des données perso, des données business avec marge, négo fournisseurs, et tout le toutim). Cet échantillon aléatoire a permis d’identifier une centaine de cas de merdes plus tordus les uns que les autres qui auraient nécessité des recadrages bien casse burnes en base sur le système cible des semaines après la migration si on ne les avait pas identifiés par ce moyen (du genre à te fausser une comptabilité, faire payer des fournisseurs à un tarif qui n’était pas celui négocié, et toutes ces joyeusetés).
Par contre oui, si les environnements de formation ou qualif sont infoutus d’être étanches de bout en bout, jouer avec des vraies données est une hérésie.
Je me rappelle d’un appel en panique de la Centrale d’achats d’un ancien client où un fournisseur avait alerté avoir reçu des centaines de commandes subites. L’environnement lui-même était étanche, mais le middleware d’échange entre eux s’est avéré quelque peut confus sur le routage et a routé des flux de qualif en prod.
Le 06/01/2023 à 10h04
Pardon ?
Une recherche plus tard, Wikipedia(France)
Ah ouais, ben j’aurais pas cru O_o
Complément, https://www.securite-sociale.fr/dossiers/les-agents-de-la-securite-sociale-sontils-fonctionnaires
Je n’aurais pas cru, tiens. C’était intéressant de l’apprendre.
Le 06/01/2023 à 10h24
Comme l’Unedic qui est association de loi 1901.
Le 06/01/2023 à 10h20
Pas faux. Mais l’esquive du formateur est nase aussi. 50-50.
Ceci dit, quand on fait des formations en interne, on utilise souvent des jeux de données réelles, c’est plus parlant pour les utilisateurs.
Qu’un jeu de données sorte, c’est possible, du moment qu’on peut s’assurer qu’il soit détruit.
Qu’un presta mette sur son site internet en libre service un fichier de données fourni par un client (et certainement sans l’avertir), c’est un guignol.
Le 06/01/2023 à 10h25
Faudrait connaître le contrat avec le prestataire pour savoir ce qu’il en est vraiment, est-ce que ce n’est pas la CAF qui a demandé à ce que ses agents puissent accéder aux données sur internet dans le cadre de la formation ? Dans cette hypothèse, le prestataire a pu croire en toute bonne foi que la CAF ne serait pas assez stupide pour fournir des données réelles ET demander la mise à disposition.
Le 06/01/2023 à 10h42
Dans tous les cas, c’est l’exemple de plus que même quand tu es gros, que tu as un budget sécurité informatique, une simple manip mal considérée te fiche tout par terre.
Le 06/01/2023 à 10h48
Et qu’importe la taille ou le budget, quand un service a décidé de faire n’importe quoi dans son coin, c’est très compliqué à détecter ou maîtriser.
J’ai le souvenir d’un service RH qui, pour recueillir les besoins de formations, avait envoyé à tout le monde un fichier excel qui contenait le nom, le prénom, la date de naissance, le type de contrat, l’ancienneté, la catégorie et le coefficent de tous les salariés. D’après eux ça leur facilitait la gestion derrière, mais pour les managers qui ont eu à gérer les “pourquoi untel a un coeff plus élevé que le mien alors que j’ai plus d’ancienneté ???” c’était une autre histoire…
Le 06/01/2023 à 12h48
Tiens, c’est arrivé par plus tard qu’en décembre dernier à une amie.
Elle m’a demandé si c’était normal. Je lui ai répondu qu’à première vue, ça ne l’était pas et qu’elle pouvait saisir son officier à la protection des données.
Le 06/01/2023 à 15h23
On appelle ça “anonymisation des données” LOL
Le 06/01/2023 à 16h02
A la lecture de l’article de FranceInfo, la CAF a clairement chié son anonymisation qui a été incomplète. Si les noms/prénoms/codes postaux ont été supprimés, avoir laissé les adresses, dates de naissance et composition du foyer démontre une forte insuffisance du procédé.
Que le prestataire ait reçu des vraies données n’est pas un problème en soit du moment que la relation contractuelle le permet et définie bien sa responsabilité sur leur utilisation. Faire de la formation sur un vrai jeu de données n’est pas déconnant, surtout vu la complexité de celles de la CAF. Mais c’est aussi à ça que sert la caractérisation de la donnée : le fameux CID (confidentialité / intégrité / disponibilité). Ici, le jeu de données aurait dû être catégorisé comme étant à diffusion restreinte pour raison de présence de données d’allocataires.
Ca pourra être intéressant de voir ce que l’enquête de la CNIL donnera sur le sujet.
Le 06/01/2023 à 19h31
Non car ils auraient dans tous les cas du notifier la CNIL.
Le 08/01/2023 à 07h55
Encore faudrait-il avoir indiqué que les données recueillies peuvent servir à de la formation, et là je ne vois pas bien comment la CAF pourrait demander ce consentement en respectant le RGPD…
Pour une formation R, le tri (mélange des données) suffit : tu as les bons totaux, moyennes, seule la répartition (géographique, par année de naissance…) est impactée mais même là ce n’est pas forcément plus faux que sortir 10k vraies entrées au pif.
Le 08/01/2023 à 20h01
Non, cela reste de la pseudonymisation, pas de l’anonymisation. Avec des données comme la composition du foyer, les revenus, etc… il est tout à fait possible de remonter aux informations de la personne en croisant avec d’autres données.
L’anonymisation est très difficile à obtenir. Il faut noyer les données, par exemple en les agrégeants ou en les “arrondissants” (par exemple, en définissant des tranches pour les revenus, pour les âges, etc…). La simple suppression n’est absolument pas suffisante dans la grande majorité des cas.
Le 09/01/2023 à 07h04
Il faut évidemment trier indépendamment toutes les colonnes par ordre alphabétique, et la c’est parfait ! il sera impossible de retrouver quoi que ce soit.
Le 09/01/2023 à 07h51
Non. Tu pourrais supprimer les colonnes nom, prénom, adresse, etc… qu’il serait possible de réidentifier les gens sur la base de la composition du foyer, du revenus, etc… 180 critères, ça en fait du choix ! La CNIL avait publié un article au sujet de l’anonymisation.
Croire que supprimer les données directement identifiantes et les valeurs rare (comme les adresses) suffit pour anonymiser, c’est se tromper lourdement.
Le CEPD a établie un avis, légitimement repris par la CNIL, annonçant 3 critères pour s’assurer du caractère anonyme d’un jeu de données :
La non-individualisation n’est clairement pas respecté ici. La non-corrélation ne l’est pas non plus. Un foyer de 4 personnes habitant en Gironde touchant 3287,18€ par mois, ça doit limiter fortement le nombre de “candidats”. Rajoute un critère ou deux (il en reste plus de 170 !!) et le tour est joué.
Donc non, il ne suffit pas de randomiser les données identifiantes pour rendre anonyme un jeu de données. C’est une opération très complexe pour la réaliser correctement.
Le 09/01/2023 à 11h47
Ce que fofo9012 dit, c’est que si on prend la colonne revenu, qu’on mélange tout, puis la colonne nombre de personnes dans le foyer, qu’on mélange tout, etc. Alors on ne peut plus réidentifier puisque les données qui étaient sur la même ligne ont été réparties sur des lignes différentes.
Ce genre de mélange conservera en revanche les données statistiques pour chaque colonne prise individuellement, ce qui devrait être suffisant pour ce cas d’usage.
Le 09/01/2023 à 13h09
Ce n’est pas vraiment ce que j’ai compris de son message. Dans son message initial, il parle de trier par ordre alphabétique les données directement identifiantes (nom, prénom, date de naissance, …) et de supprimer les colonnes de données personnelles (numéro de téléphone, e-mail, etc…).
Il ne parle absolument pas de mélanger toutes les colonnes.
De plus, si le mélange d’une colonne conserve certaines propriétés de la colonne individuellement, cela m’étonnerait que cela soit suffisant. Ce n’est pas pour rien que le formateur avait besoin de données réalistes. Il sera absolument impossible de faire des statistiques plus avancées.
Mais on s’éloigne du sujet. Ce qu’il faut retenir, c’est que réaliser l’anonymisation d’un jeu de données, c’est une tâche bien plus compliquée qu’il n’y parait, et qu’il ne suffit pas de supprimer quelques colonnes et de randomiser les nom/prénom/date de naissance.
Le 09/01/2023 à 10h10
Pourquoi ne pas développer un générateur de données aléatoire ? ce serait quand même beaucoup plus simple ^^
Le 09/01/2023 à 10h25
Si c’est possible, oui, c’est ce qu’il faut faire :)
Maintenant, dans le cadre de la CAF, je ne sais pas, puisque des données initiales dépendent les décisions (droits ou pas à tel aide, quel montant, etc…). Générer aléatoirement des données qui doivent être corrélées, c’est très compliquées aussi !
Le 09/01/2023 à 05h21
Non ça ne passe pas du point de vue RGPD, sauf si les personnes concernées ont été préalablement informées de l’utilisation de leur données à des fins de formation et ont eu la possibilité de refuser ce traitement (idéalement ça devrait uniquement être de l’opt-in).
Je doute que ça ait été le cas.
Le 09/01/2023 à 05h28
Là on ne parle pas d’une procédure de reprise de données d’un système vers un autre, et ton jeu de test, vous ne deviez pas être nombreux à y avoir accès j’imagine. On parle de données utilisées à des fins de formation. Tant que les données dans la base permettent de voir correctement les différents cas/workflows/usages auxquels les élèves doivent être formés, c’est suffisant. Sans connaître exactement sur quoi portait la formation et les logiciels en question c’est dur d’en dire plus, mais clairement, fournir un jeu de données réelles à peine pseudonymisé était une mauvais idée, en plus d’être illégal.