Connexion
Abonnez-vous

Les données personnelles de 10 000 allocataires de la CAF disponibles en ligne

Les données personnelles de 10 000 allocataires de la CAF disponibles en ligne

Le 06 janvier 2023 à 05h53

La CAF de Gironde a soumis un fichier comprenant les données personnelles de 10 204 allocataires à son prestataire de formation parisien. Si les noms, prénoms et codes postaux des bénéficiaires avaient été supprimés, il restait pas moins de 181 points de données sur chacun d’entre eux, ce qui a rendu simple leur ré-identification par la cellule enquête de Radio France.

Le prestataire, qui avait rendu le fichier disponible sur son site internet, pensait que les données étaient fictives.

Le 06 janvier 2023 à 05h53

Commentaires (43)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

wahou

votre avatar

La boulette de l’année :)

votre avatar

Je viens de recevoir des spams a l’adresse mail que j’avais a la CAF de Gironde, je suppose que j’ai tiré le gros lot…
Y’a un moyen de vérifier si c’est bien de la que vient la fuite ?

votre avatar

La CAF de Gironde va informer les 10 204 allocataires concernés” dit France Info.



Mais tu l’es probablement. Je ne crois pas à une coïncidence.

votre avatar

« Chef, j’ai glissé ! »

votre avatar

Joli, j’imagine que ça a fait l’objet d’une enquête de la CNIL ?

votre avatar

oupsi ….

votre avatar

Problème avec les marchés publics: on se retrouve avec des prestataires de daube.

votre avatar

Problème avec les services publics : on se retrouve avec des incompétents qui font n’importe quoi sans sanctions. Ca marche aussi …



Au-delà du troll, à quel moment un organisme envoie un jeu de données réelles à un prestataire pour des formations ??? Le prestataire n’a même pas envisagé (à juste titre) que ce ne soit pas des données fictives.

votre avatar

Oh, je pense que c’est juste plus simple d’extract des données existantes que de se faire chier à créer des données fictives :transpi:

votre avatar

Oui, surtout pour plus de 10000 entrées.

votre avatar

En plus de l’anonymisation indiquée sur les noms, il aurait dû y avoir pseudonymisation sur le reste des données pour réduire les risques de ré-identifications.



Et elle n’a visiblement pas informé son prestataire de la confidentialité des données si celui-ci les a publié publiquement.



La CAF s’est complètement chiée dessus dans cette histoire j’ai l’impression.

votre avatar

Dans mon entreprise, sur les environnements de développement et de préproduction on utilise des données réelles. Il est impossible de reconstruire des données fictives en si grand nombre (ici 10000 allocataires ayant chacun possiblement 180 données liées soient plus d’un million et demi de données).

votre avatar

Pour un environnement interne de pré-prod ça peut s’envisager, et encore avec des mesures de précautions pour s’assurer que rien ne sorte et que les données soient supprimées lorsque plus nécesssaires.



Des données personnelles vers un prestataire de formation, c’est n’importe quoi. Déjà quelle formation nécessite absolument un jeu de données avec 180 données différentes et plus de 10000 entrées ? Et si c’est vraiment le cas, ça se prépare et suivant la typologie ça peut être assez simple, notamment avec de l’aléatoire sur des listes (prénom, nom, code postal, …).

votre avatar

Il s’agissait d’une formation au langage R pour les statisticiens de la CAF, donc en soit qu’il y ait une besoin d’un aussi gros jeu de données, ça n’est pas surprenant. Maintenant, on peut effectivement s’interroger sur l’utilisation de données réelles ou en tout cas pas assez anonymisées/pseudonymisées, ainsi que sur les relations avec le prestataire, à qui on aurait dû préciser qu’il s’agissait de données réelles et encadrer le transfert.

votre avatar

En préprod tu peux récupérer une partie des données (encore que légalement j’ai un gros doute). Mais dire qu’on ne peut pas générer ça c’est de la mauvaise foi. Chez nous les dev on créer un script qui génère plein d’utilisateurs (+5k), mais c’est sûr que ça coûte du temps.

votre avatar

Un simple tri des colonnes dans Excel suffit à pseudo anonymiser en mélangeant nom / prénom / date de naissance…



il reste ensuite à virer les colonnes perso (téléphone, no de sécu, email…) bref c’est quand même pas trés compliqué, prend disons 30min, et 10k entrées dans excel c’est absolument quedal !

votre avatar

Ah parce que tu penses que ce genre d’erreur n’aurait jamais pu arriver avec des fonctionnaires ? :roll:

votre avatar

Sauf que les employés de la CAF (et aussi de l’urssaf, sécu…) sont de droits privés, ils ne sont pas fonctionnaires.

votre avatar

oui c’était bien le sens de la remarque de Wosgien et donc de ma réponse. :smack:

votre avatar

Là c’est surtout la CAF qui a merdé. A aucun moment ce n”est une bonne idée de fournir des données réelles à des fins de formation…

votre avatar

Inventer des milliers de données est un travail qui demande déjà d’avoir conscience des enjeux de protection des données. Dans toutes les administrations, on gagne du temps comme on peut, c’est bien connu. Pour schématiser (et franchement parfois, c’est la triste réalité), on produit des tableaux Excel, des données “chiffrées”, c’est tout ce qui compte du moment que personne ne se plaint. On va au plus simple, au plus rapide, on rationalise le temps.



Il y a eu un quiproquo :




  • Les services la CAF se sont facilité la tâche en fournissant un jeu de données réel (en croyant que retirer noms et prénoms suffit à anonymiser des données),

  • les services d’animation du prestataire de formation ont pensé recevoir un fichier fictif sans s’imaginer le boulot que ce serait d’inventer des données et parce que publier le fichier de données directement sur internet était plus simple, plus pratique, plus rapide.



Tous le monde se simplifie la vie, et fait des économies. Et entre nous : ça serait passé ni vu ni connu si le service Enquête de Radio France n’avait pas révélé ces faits.

votre avatar

Ca dépend.



Si le jeu de données est situé sur un environnement de formation proprement isolé et que le personnel formé est accrédité pour le manipuler, ça passe du point de vue RGPD à mes yeux si le responsable du traitement applique les mêmes exigences niveau CID que la production. Il y a des cas d’usage où la donnée réelle est nécessaire, notamment pour valider que les règles de gestion s’appliquent bien tout au long du traitement métier. Le risque d’une qualif avec des jeux de données simulés est qu’elle soit biaisée et non représentative et entraîne plus tard des incidents de production qui auraient pu être évités.



J’ai eu l’occasion de faire plusieurs fois des migrations de données d’un ancien système vers un nouveau, et donc du développer la reprise de données qui va avec. Pour développer la procédure de RDD, il fallait un jeu de données prenant les différentes règles de gestion possibles exigées par le métier. Sur l’env de dev, évidemment j’avais que de la merde insérée à la main pour initialiser la procédure.



Mais au moment de la qualification de la reprise, le métier m’avait filé une liste d’enregs représentant leurs besoins. Et histoire d’avoir une campagne plus représentative, j’ajoutais systématiquement une sélection d’une dizaine de milliers d’entrées aléatoires. Et c’était des données confidentielles de l’entreprise (pas des données perso, des données business avec marge, négo fournisseurs, et tout le toutim). Cet échantillon aléatoire a permis d’identifier une centaine de cas de merdes plus tordus les uns que les autres qui auraient nécessité des recadrages bien casse burnes en base sur le système cible des semaines après la migration si on ne les avait pas identifiés par ce moyen (du genre à te fausser une comptabilité, faire payer des fournisseurs à un tarif qui n’était pas celui négocié, et toutes ces joyeusetés).



Par contre oui, si les environnements de formation ou qualif sont infoutus d’être étanches de bout en bout, jouer avec des vraies données est une hérésie.



Je me rappelle d’un appel en panique de la Centrale d’achats d’un ancien client où un fournisseur avait alerté avoir reçu des centaines de commandes subites. L’environnement lui-même était étanche, mais le middleware d’échange entre eux s’est avéré quelque peut confus sur le routage et a routé des flux de qualif en prod.

votre avatar

SunneX a dit:


Sauf que les employés de la CAF (et aussi de l’urssaf, sécu…) sont de droits privés, ils ne sont pas fonctionnaires.


Pardon ?



Une recherche plus tard, fr.wikipedia.org Wikipedia(France)



Ah ouais, ben j’aurais pas cru O_o




Une caisse d’allocations familiales (Caf) est un organisme de droit privé1,2 à compétence départementale3 chargé de verser aux particuliers des prestations financières à caractère familial ou social (prestations légales), dans des conditions déterminées par la loi4. La Caf accorde également des prestations dites extralégales dans le cadre de sa politique d’action sociale pour inciter et accompagner les acteurs locaux, principalement les collectivités locales et les associations, à développer des services adaptés aux besoins des familles (crèches, centres de loisirs, actions de soutien à la parentalité, animation de la vie sociale…).



Depuis 1946, il existait en principe une caisse d’allocations familiales par département. Mais, en fonction de contextes locaux, certains départements avaient été dotés de deux ou plusieurs Caf. Le département du Nord comptait par exemple huit caisses. Fin 2011, une opération de fusion des caisses dites « infra-départementales » a eu lieu, terminée en 2017. Le réseau des allocations familiales est ainsi passé de 123 à 101 caisses. L’ensemble des Caf représente environ 33 000 salariés.


Complément, https://www.securite-sociale.fr/dossiers/les-agents-de-la-securite-sociale-sontils-fonctionnaires




Dès sa création en 1945, la gestion des caisses de Sécurité sociales incarne les principes de la démocratie sociale et les caisses sont chargées d’une mission de service public. Leurs conseils d’administration sont ainsi composés de représentants de salariés et de représentants des employeurs.



Les organismes de Sécurité sociale du Régime général (Caf, Cpam, Carsat, Urssaf, CGSS) ou des autres régimes (MSA, régimes spéciaux) sont de droit privé. Quant aux caisses nationales, il s’agit d’établissements publics à caractère administratif (EPA) qui emploient essentiellement des salariés de droit privé.



En revanche, la fixation des montants des prestations et des taux de cotisations revient au Gouvernement et au Parlement via les lois de financement de la Sécurité sociale (LFSS).


Je n’aurais pas cru, tiens. C’était intéressant de l’apprendre.

votre avatar

Comme l’Unedic qui est association de loi 1901.

votre avatar

mtaapc a dit:


Au-delà du troll, à quel moment un organisme envoie un jeu de données réelles à un prestataire pour des formations ??? Le prestataire n’a même pas envisagé (à juste titre) que ce ne soit pas des données fictives.


Pas faux. Mais l’esquive du formateur est nase aussi. 50-50.
Ceci dit, quand on fait des formations en interne, on utilise souvent des jeux de données réelles, c’est plus parlant pour les utilisateurs.
Qu’un jeu de données sorte, c’est possible, du moment qu’on peut s’assurer qu’il soit détruit.



Qu’un presta mette sur son site internet en libre service un fichier de données fourni par un client (et certainement sans l’avertir), c’est un guignol.

votre avatar

Faudrait connaître le contrat avec le prestataire pour savoir ce qu’il en est vraiment, est-ce que ce n’est pas la CAF qui a demandé à ce que ses agents puissent accéder aux données sur internet dans le cadre de la formation ? Dans cette hypothèse, le prestataire a pu croire en toute bonne foi que la CAF ne serait pas assez stupide pour fournir des données réelles ET demander la mise à disposition.

votre avatar

mtaapc a dit:


Dans tous les cas, c’est l’exemple de plus que même quand tu es gros, que tu as un budget sécurité informatique, une simple manip mal considérée te fiche tout par terre.

votre avatar

Et qu’importe la taille ou le budget, quand un service a décidé de faire n’importe quoi dans son coin, c’est très compliqué à détecter ou maîtriser.



J’ai le souvenir d’un service RH qui, pour recueillir les besoins de formations, avait envoyé à tout le monde un fichier excel qui contenait le nom, le prénom, la date de naissance, le type de contrat, l’ancienneté, la catégorie et le coefficent de tous les salariés. D’après eux ça leur facilitait la gestion derrière, mais pour les managers qui ont eu à gérer les “pourquoi untel a un coeff plus élevé que le mien alors que j’ai plus d’ancienneté ???” c’était une autre histoire…

votre avatar

Tiens, c’est arrivé par plus tard qu’en décembre dernier à une amie.
Elle m’a demandé si c’était normal. Je lui ai répondu qu’à première vue, ça ne l’était pas et qu’elle pouvait saisir son officier à la protection des données.

votre avatar

On appelle ça “anonymisation des données” LOL

votre avatar

A la lecture de l’article de FranceInfo, la CAF a clairement chié son anonymisation qui a été incomplète. Si les noms/prénoms/codes postaux ont été supprimés, avoir laissé les adresses, dates de naissance et composition du foyer démontre une forte insuffisance du procédé.



Que le prestataire ait reçu des vraies données n’est pas un problème en soit du moment que la relation contractuelle le permet et définie bien sa responsabilité sur leur utilisation. Faire de la formation sur un vrai jeu de données n’est pas déconnant, surtout vu la complexité de celles de la CAF. Mais c’est aussi à ça que sert la caractérisation de la donnée : le fameux CID (confidentialité / intégrité / disponibilité). Ici, le jeu de données aurait dû être catégorisé comme étant à diffusion restreinte pour raison de présence de données d’allocataires.



Ca pourra être intéressant de voir ce que l’enquête de la CNIL donnera sur le sujet.

votre avatar

(quote:2113506:consommateurnumérique)
Tous le monde se simplifie la vie, et fait des économies. Et entre nous : ça serait passé ni vu ni connu si le service Enquête de Radio France n’avait pas révélé ces faits.


Non car ils auraient dans tous les cas du notifier la CNIL.

votre avatar

SebGF a dit:


Ca dépend.



Si le jeu de données est situé sur un environnement de formation proprement isolé et que le personnel formé est accrédité pour le manipuler, ça passe du point de vue RGPD à mes yeux si le responsable du traitement applique les mêmes exigences niveau CID que la production.


Encore faudrait-il avoir indiqué que les données recueillies peuvent servir à de la formation, et là je ne vois pas bien comment la CAF pourrait demander ce consentement en respectant le RGPD…




Il y a des cas d’usage où la donnée réelle est nécessaire, notamment pour valider que les règles de gestion s’appliquent bien tout au long du traitement métier. Le risque d’une qualif avec des jeux de données simulés est qu’elle soit biaisée et non représentative et entraîne plus tard des incidents de production qui auraient pu être évités.


Pour une formation R, le tri (mélange des données) suffit : tu as les bons totaux, moyennes, seule la répartition (géographique, par année de naissance…) est impactée mais même là ce n’est pas forcément plus faux que sortir 10k vraies entrées au pif.

votre avatar

fofo9012 a dit:


Un simple tri des colonnes dans Excel suffit à pseudo anonymiser en mélangeant nom / prénom / date de naissance…



il reste ensuite à virer les colonnes perso (téléphone, no de sécu, email…) bref c’est quand même pas trés compliqué, prend disons 30min, et 10k entrées dans excel c’est absolument quedal !


Non, cela reste de la pseudonymisation, pas de l’anonymisation. Avec des données comme la composition du foyer, les revenus, etc… il est tout à fait possible de remonter aux informations de la personne en croisant avec d’autres données.



L’anonymisation est très difficile à obtenir. Il faut noyer les données, par exemple en les agrégeants ou en les “arrondissants” (par exemple, en définissant des tranches pour les revenus, pour les âges, etc…). La simple suppression n’est absolument pas suffisante dans la grande majorité des cas.

votre avatar

Il faut évidemment trier indépendamment toutes les colonnes par ordre alphabétique, et la c’est parfait ! il sera impossible de retrouver quoi que ce soit.

votre avatar

Il faut évidemment trier indépendamment toutes les colonnes par ordre alphabétique, et la c’est parfait ! il sera impossible de retrouver quoi que ce soit.


Non. Tu pourrais supprimer les colonnes nom, prénom, adresse, etc… qu’il serait possible de réidentifier les gens sur la base de la composition du foyer, du revenus, etc… 180 critères, ça en fait du choix ! La CNIL avait publié un article au sujet de l’anonymisation.



Croire que supprimer les données directement identifiantes et les valeurs rare (comme les adresses) suffit pour anonymiser, c’est se tromper lourdement.



Le CEPD a établie un avis, légitimement repris par la CNIL, annonçant 3 critères pour s’assurer du caractère anonyme d’un jeu de données :




  • la non-individualisation : il ne doit pas être possible d’isoler un individu dans le jeu de données

  • la non-corrélation : il ne doit pas être possible de relier entre eux des ensembles de données distincts concernant un même individu

  • la non-inférence: il ne doit pas être possible de déduire de façon quasi certaine de nouvelles informations sur un individu



La non-individualisation n’est clairement pas respecté ici. La non-corrélation ne l’est pas non plus. Un foyer de 4 personnes habitant en Gironde touchant 3287,18€ par mois, ça doit limiter fortement le nombre de “candidats”. Rajoute un critère ou deux (il en reste plus de 170 !!) et le tour est joué.



Donc non, il ne suffit pas de randomiser les données identifiantes pour rendre anonyme un jeu de données. C’est une opération très complexe pour la réaliser correctement.

votre avatar

Ce que fofo9012 dit, c’est que si on prend la colonne revenu, qu’on mélange tout, puis la colonne nombre de personnes dans le foyer, qu’on mélange tout, etc. Alors on ne peut plus réidentifier puisque les données qui étaient sur la même ligne ont été réparties sur des lignes différentes.



Ce genre de mélange conservera en revanche les données statistiques pour chaque colonne prise individuellement, ce qui devrait être suffisant pour ce cas d’usage.

votre avatar

Ce n’est pas vraiment ce que j’ai compris de son message. Dans son message initial, il parle de trier par ordre alphabétique les données directement identifiantes (nom, prénom, date de naissance, …) et de supprimer les colonnes de données personnelles (numéro de téléphone, e-mail, etc…).



Il ne parle absolument pas de mélanger toutes les colonnes.



De plus, si le mélange d’une colonne conserve certaines propriétés de la colonne individuellement, cela m’étonnerait que cela soit suffisant. Ce n’est pas pour rien que le formateur avait besoin de données réalistes. Il sera absolument impossible de faire des statistiques plus avancées.



Mais on s’éloigne du sujet. Ce qu’il faut retenir, c’est que réaliser l’anonymisation d’un jeu de données, c’est une tâche bien plus compliquée qu’il n’y parait, et qu’il ne suffit pas de supprimer quelques colonnes et de randomiser les nom/prénom/date de naissance.

votre avatar

Pourquoi ne pas développer un générateur de données aléatoire ? ce serait quand même beaucoup plus simple ^^

votre avatar

Si c’est possible, oui, c’est ce qu’il faut faire :)



Maintenant, dans le cadre de la CAF, je ne sais pas, puisque des données initiales dépendent les décisions (droits ou pas à tel aide, quel montant, etc…). Générer aléatoirement des données qui doivent être corrélées, c’est très compliquées aussi !

votre avatar

SebGF a dit:


Ca dépend.



Si le jeu de données est situé sur un environnement de formation proprement isolé et que le personnel formé est accrédité pour le manipuler, ça passe du point de vue RGPD


Non ça ne passe pas du point de vue RGPD, sauf si les personnes concernées ont été préalablement informées de l’utilisation de leur données à des fins de formation et ont eu la possibilité de refuser ce traitement (idéalement ça devrait uniquement être de l’opt-in).



Je doute que ça ait été le cas.

votre avatar

SebGF a dit:


Ca dépend.



J’ai eu l’occasion de faire plusieurs fois des migrations de données d’un ancien système vers un nouveau, et donc du développer la reprise de données qui va avec. Pour développer la procédure de RDD, il fallait un jeu de données prenant les différentes règles de gestion possibles exigées par le métier. Sur l’env de dev, évidemment j’avais que de la merde insérée à la main pour initialiser la procédure.



Mais au moment de la qualification de la reprise, le métier m’avait filé une liste d’enregs représentant leurs besoins. Et histoire d’avoir une campagne plus représentative, j’ajoutais systématiquement une sélection d’une dizaine de milliers d’entrées aléatoires. Et c’était des données confidentielles de l’entreprise (pas des données perso, des données business avec marge, négo fournisseurs, et tout le toutim). Cet échantillon aléatoire a permis d’identifier une centaine de cas de merdes plus tordus les uns que les autres qui auraient nécessité des recadrages bien casse burnes en base sur le système cible des semaines après la migration si on ne les avait pas identifiés par ce moyen (du genre à te fausser une comptabilité, faire payer des fournisseurs à un tarif qui n’était pas celui négocié, et toutes ces joyeusetés).


Là on ne parle pas d’une procédure de reprise de données d’un système vers un autre, et ton jeu de test, vous ne deviez pas être nombreux à y avoir accès j’imagine. On parle de données utilisées à des fins de formation. Tant que les données dans la base permettent de voir correctement les différents cas/workflows/usages auxquels les élèves doivent être formés, c’est suffisant. Sans connaître exactement sur quoi portait la formation et les logiciels en question c’est dur d’en dire plus, mais clairement, fournir un jeu de données réelles à peine pseudonymisé était une mauvais idée, en plus d’être illégal.

Les données personnelles de 10 000 allocataires de la CAF disponibles en ligne

Fermer