La CNIL refroidit l’appétit de Big Brother Bercy
Cyber Bercy
Le 15 février 2021 à 15h50
10 min
Droit
Droit
Au Journal officiel ce week-end, Bercy a publié l’un des derniers coups de truelle de son chantier destiné à chaluter les réseaux sociaux et autres plateformes pour trouver des indices de fraudes. Un chantier validé par le Conseil constitutionnel, modulo un strict encadrement, rappelé par la CNIL dans sa délibération.
Derrière le hashtag #BigBrotherBercy, on trouve la possibilité pour les services fiscaux « d'une part, de collecter de façon indifférenciée d'importants volumes de données, relatives à un grand nombre de personnes, publiées sur de tels sites et, d'autre part, d'exploiter ces données, en les agrégeant et en opérant des recoupements et des corrélations entre elles ». Voilà en quelques mots comment les neuf Sages résumèrent cette disposition née de la loi de finances pour 2020.
Au fil d’une expérimentation sur trois ans, les fins limiers de Bercy se voient depuis autorisés à collecter les données ouvertes sur les réseaux sociaux, les plateformes de vente et plus globalement tous les sites de mises en relation. La finalité ? Après traitement automatisé, déceler des débuts de commencement de traces de fraudes en matière de commerce illicite (drogue, tabac) ou encore de domiciliation à l’étranger.
Ce 13 février 2021, au Journal officiel, a été publié le décret « portant modalités de mise en œuvre par la direction générale des finances publiques et la direction générale des douanes et droits indirects de traitements informatisés et automatisés permettant la collecte et l'exploitation de données rendues publiques sur les sites internet des opérateurs de plateforme en ligne ».
Il vient rythmer en deux séquences l’expérimentation programmée voilà de longs mois par le législateur : une phase d’apprentissage suivie par une phase d’exploitation. Il s’agira en pratique de développer d’abord des outils puis déceler ensuite les indélicatesses à la législation fiscale.
Le cas échéant, ces données seront transmises à des agents de la Direction générale des finances publiques ou celle des douanes pour qu’un contrôle plus individualisé soit orchestré. « Les données ouvertes qui seront utilisées ne serviront que d’indices qui, croisés avec d’autres données, peuvent conduire l’administration à ouvrir un contrôle », nous avait précisé Bercy en 2018.
« En aucun cas des redressements n’interviendront sur la seule base de telles données, insiste la direction, et il n’y aura aucune inversion de la charge de la preuve : il incombera toujours à l’administration de démontrer la fraude, sur la base d’éléments objectifs. Il ne s’agit donc absolument pas d’une surveillance généralisée de tous les Français ».
La phase d'apprentissage et de conception
Cette première phase avait été annoncée en novembre 2019 dans un amendement de la majorité LREM. Selon les explications des élus, « un algorithme auto-apprenant sera développé afin de déterminer des indicateurs permettant de cibler les infractions visées par le dispositif, sur la base d’une base de données anonymisées ».
Au Journal officiel, samedi, plus d'un an après le vote du projet de loi de finances, le décret confirme cette logique. Durant cette phase initiale, des outils « de collecte et d'analyse des données » seront développés afin « d'identifier des indicateurs (…) tels que des mots-clés, des ratios ou encore des indications de dates et de lieux ». Ces mêmes indicateurs permettront ensuite de caractériser les manquements et infractions recherchés.
Pour cet essai grandeur nature, Bercy va travailler d’abord sur des listes d’entreprises ou de personnes physiques préalablement identifiées par son traitement de data mining « ciblage de la fraude et valorisation des requêtes » (ou CFVR). Soit une centaine d'entreprises pour la recherche d'activités occultes, et une dizaine de personnes physiques s’agissant des fausses domiciliations à l'étranger.
- Contre la fraude fiscale, toute la population française sous l’œil du « datamining » CFVR
- Le datamining, cache-misère contre la fraude fiscale
Prenons l’exemple d’une fraude à la domiciliation fiscale où un contribuable affirme vivre six mois et un jour à l’étranger, en espérant échapper à l’impôt français alors que ses activités en ligne démontrent une autre réalité. Les services vont développer d’abord « un outil permettant d'associer une personne physique à ses comptes détenus sur les plateformes en ligne », dont les réseaux sociaux.
Ensuite, à partir d’un échantillon, seront aspirés tous « les contenus des pages permettant d'identifier des lieux géographiques qui peuvent notamment être des écrits, des images, des photographies, des sons, des signaux ou des vidéos ».
Enfin, ce stock d’informations sera croisé « avec des bases de données de lieux géographiques et des moteurs de recherche spécialisés dans l'identification des lieux correspondant à des images, afin d'identifier des indicateurs de lieux géographiques ». Reconnaissance de bâtiments, d’adresses, exploitation des coordonnées géolocalisées associées aux métadonnées d’une photo, tout peut être envisagé…
S’agissant de la vente de tabac ou de drogues illicites, même logique : la DGFIP compte identifier les « titulaires des pages internet analysées », tout en exploitant « les photographies des produits vendus, les données d'expédition de la marchandise et les données permettant de mesurer l'audience de la page, l'ancienneté et l'activité du profil et de l'annonce ».
Durant cette première période, toutes les données personnelles collectées seront effacées puisque l’objectif est « seulement » de disposer d’outils de collecte après cette mise à l’épreuve dans l’océan Internet.
La phase d'exploitation des données
Comme l’exploitant agricole après avoir vérifié ses engins et aiguisé ses fourches, le ministère sera ensuite prêt pour la moisson, armé de ses « indicateurs ». Les données chalutées seront ensuite transférées dans le data mining du CFVR pour « vérifier si la personne ne s'est pas fait connaître de l'administration ».
Au fil de l’eau et des manquements recherchés, les services seront amenés à brasser états civils, identifiants de profil, pseudonymes, adresses, numéros de téléphone, adresses électroniques, photographies, données d'expédition de marchandises, activités d’un profil et d’une annonce, etc.
L’appétit de Bercy, le rappel de la CNIL
Saisie pour avis, la CNIL considère dans sa délibération que ces deux phases obéissent à deux régimes juridiques différents. La phase d'apprentissage relève du RGPD, celle de l’exploitation des données, de la directive Police-Justice.
Mais au-delà, on découvre surtout les appétits des services fiscaux qui ont tenté de raboter au maximum les garanties imposées par le législateur et la décision du Conseil constitutionnel, à savoir que la collecte et l’exploitation ne visent que les contenus :
- librement accessibles sur les sites des opérateurs de plateforme
- manifestement rendus publics par leurs utilisateurs
Lorsqu’ils validèrent cette disposition, dans sa quasi-totalité, les neuf Sages prirent en compte le fait que « ne peuvent être collectés et exploités que les contenus se rapportant à la personne qui les a, délibérément, divulgués ».
API et webscraping
Dans le décret, le ministère s’est d’abord réservé la possibilité de créer des comptes via les interfaces de programmation mises à disposition par les opérateurs de plateforme.
Selon la CNIL, il « entend utiliser des API (interfaces de mise à disposition des données des sites) proposées par les plateformes ou les réseaux sociaux, et/ou des techniques de "webscraping" (techniques d'extraction du contenu de sites, via des scripts ou des programmes automatisés) pour collecter les données des plateformes et des réseaux sociaux. »
Cette technique permettra à la DGFIP de passer entre les lames des solutions de sécurité mises en place par les plateformes pour prévenir les usages massifs.
Toutefois, lors d’un échange avec Bercy, la CNIL a découvert une doctrine fiscale pour le moins éloignée de celle espérée par le législateur. Les données « librement accessibles » visées par Big Brother Bercy seraient aux yeux de la DGFIP toutes celles « publiées sur les plateformes et les réseaux sociaux sans paramètre de confidentialité spécifique ou avec un paramétrage de confidentialité public ». Et donc, toutes celles « qui ne sont pas publiées en mode privé ou en accès restreint à un cercle de contacts, quelles que soient les modalités techniques utilisées pour les collecter ».
De même, dans son projet de décret soumis à l’avis de l’autorité, le ministère a estimé que les commentaires pouvaient parfaitement être alpagués.
Interrogé par la CNIL, il « fait valoir le caractère public - par nature - des commentaires publiés sur les sites marchands au regard de leur modèle économique ainsi que la connaissance, par les utilisateurs de ces sites marchands, des paramètres de confidentialité retenus ». Et pour les réseaux sociaux, même logique : « les utilisateurs ont également la possibilité de configurer les paramètres de confidentialité de leurs pages, en l'absence de paramétrage spécifique, de suppression des contenus concernée ou de signalement effectué auprès de la plateforme concernée, l'utilisateur les divulgue délibérément ».
Un peu court…La Commission a une interprétation beaucoup plus stricte et fidèle au texte initial : un contenu librement accessible doit être... librement accessible.
Des contenus vraiment publics, divulgués par la personne concernée
De cette tautologie, elle en déduit que l’expression vise « les contenus auxquels un utilisateur non inscrit ou sans enrôlement préalable (création de compte, fourniture de certaines informations pour créer un identifiant ou toute autre forme d'inscription) sur une plateforme ou un réseau social pourrait avoir accès, sans saisie préalable d'un mot de passe ».
De même, « pour être manifestement rendus publics les contenus doivent être délibérément divulgués par la personne titulaire du compte ou de la page ce qui implique incontestablement une action volontaire de sa part ». À contrario, « la simple absence de mise en place d'un paramétrage de confidentialité spécifique par exemple ne suffit pas à caractériser qu'une personne a délibérément divulgué un contenu ».
La Commission a donc demandé une modification du décret final, qui prévient désormais au Journal officiel que « seuls les contenus se rapportant à la personne qui les a délibérément divulgués et dont l'accès ne nécessite ni saisie d'un mot de passe ni inscription sur le site en cause peuvent être collectés et exploités ».
De même, le texte indique que « lorsque la personne est titulaire sur internet d'une page personnelle permettant le dépôt de commentaires ou toute autre forme d'interactions avec des tiers, ces commentaires et interactions ne peuvent faire l'objet d'aucune exploitation ».
Cachez ce hashtag
Relevons au final que Bercy entendait aspirer également des données relatives aux « contenus de toute nature, y compris diffusés en temps réel ».
Dans les échanges avec la CNIL, il a précisé que cette expression recouvrait principalement les « hastags » outre, selon la Commission, « l'ensemble des publications quel que soit leur format informatique (par exemple des codes chiffrés, des algorithmes, …) dès lors qu'ils sont librement accessibles et manifestement rendus publics par l'utilisateur de la plateforme ». L’expression ne se retrouve plus dans le texte finalement publié.
La CNIL refroidit l’appétit de Big Brother Bercy
-
La phase d'apprentissage et de conception
-
La phase d'exploitation des données
-
L’appétit de Bercy, le rappel de la CNIL
-
API et webscraping
-
Des contenus vraiment publics, divulgués par la personne concernée
-
Cachez ce hashtag
Commentaires (27)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 15/02/2021 à 16h52
Question bête. Quid des plateformes de discussions ? Je pense principalement à discord, IRC, mais on peut également imaginer les groupes telegram publics ou d’autres.
De plus, de ce que j’en compris, la CNIL a dit “hey ho, on va s’calmer Jean Michel Bercy, mais on a dit public, pas ‘avec un compte’”, mais pour l’instant, le fameux Jean Michel Bercy n’a rien répondu et n’est pas dans l’obligation d’accepter la demande de la CNIL ?
Le 15/02/2021 à 17h02
En gros bercy n’en branle toujours pas une (mon ancien voisin qui y bosse n’y foutait jamais les pieds, et c’était avant le covid …coucou bercy, il est sur saint fargeau ponthierry), mais en plus ils bitnt kedal à la loi.
Il nous coutent combien par an ces fumistes?
Parce que bon, je veux pas dire mais être aussi mauvais dans la récupération de pognon de la fraude fiscale on serait pas dans de l’emploi fictif? ça m’en a tout l’air.
Le 16/02/2021 à 13h03
Bravo la généralisation à partir d’un cas 😜 !!
Je pense que comme fumiste tu te poses là …
Le 16/02/2021 à 22h46
23.5 vs 1 pour 10 000 vs 4000 la on est pas dans la généralité mais dans les impôts que l’on paye!
en gros tu préfères payer 4000 glandus pour ramasser 1milliard et payer 50% de glandu en plus pour ramasser 23.5……heeeeeu tu fraude la tva?
simple question parce que la t’es pas du tout rationnel….a moins de faire parti des profiteurs, sinon je ne vois pas ton intéret! moi perso jeter l’argent par les fenetres c’est pas mon kiffe à moins que je repique la moitié en loucedé. es ce ton cas?
Le 16/02/2021 à 22h59
enfin bon, c’est marrant que tu traites la cour des comptes de fumistes. de dangereux gauchiste extrémiste mangeur de bébé peut être? c’est vrai qu’avec debré feu chirac et vge petit niko qui n’y fout pas les pieds et flambi on a la le quinté gagnant du politburo!
Le 17/02/2021 à 16h33
j’ai l’impression que tu confonds la Cour des Comptes et le Conseil Constitutionnel. Dans la liste d’ex que tu donnes, un seul “travaillait” à la Cour des Comptes, c’était Hollande. Tout en admettant benoîtement que c’était loin d’être un job très pénible.
Concernant le Conseil Constitutionnel, Chirac, Sarkozy et Hollande ont fait le choix de ne pas y siéger, jusqu’en 2020 VGE était le seul “ex” à y être actif. Au temps pour le “quinté gagnant”.
Le 21/02/2021 à 16h14
Concernant le Conseil Constitutionnel, Chirac, Sarkozy et Hollande ont fait le choix
de ne pas y siéger…
qu’un simple membre du ‘CC.’, eux qui ont ‘côtoyé les étoiles’ !
“pfff” !
Le 22/02/2021 à 09h27
Oui et non… à leur place je serais un peu dégoûté quand même vu que les membres du CC ont un plus gros salaire que le président…
Le 22/02/2021 à 09h33
certes, mais je parlais de “fierté”* !
Le 22/02/2021 à 11h34
rien que pour emm…er leur successeur, ça aurait pu être pertinent à un moment où à un autre
Concernant le fait de mettre “personnalité politique” et “honneur” dans la même phrase… je garderai pour moi ce que j’en pense, c’est plus charitable !
Le 22/02/2021 à 14h08
Le 16/02/2021 à 23h09
bon bun la cour des comptes en accointance avec le conseil constitutionnel sur le principe de sincérité du budget (et oui le recouvrement de l’impot fait parti du budget, argent magique sorti de nos poches) mangent des bébés car étant de dangereux gauchiste.
ça va faire plaisir a debré, popa de pierre paul jaques qu’es ce que tu fait la à trainer (meilleur weed d’ile de france quand il plante et ouais, je balance rien a batre) feu chirace ça m’en touche une sans faire bouger l’autre (5minutes douche comprise) feu vge (j’ai pécho diana) le nabo qui n’y fout jamais les pieds et flambi….bravo
tu viens aussi de traiter de fumistes 5 présidents de la république :)
wouhahahahahahaha
Le 15/02/2021 à 17h13
Bonjour,
Si je comprend bien, seules les données qui ne sont pas derrière un login/mot de passe pourront être utilisées… Donc pas twitter, pas facebook, pas instagram, amazon, pas google, donc… rien en fait.
Le 15/02/2021 à 18h08
Bah si, tes posts twitter, par exemple, sont (à priori) accessibles sans mot de passe (même si toi t’en utilises un pour les poster).
Le 15/02/2021 à 21h03
Ouf, je n’ai pas de compte twitter (ni facebook, ni instagram, etc). :-)
Le 17/02/2021 à 08h02
Facebook aussi, pas besoin de compte pour accéder à la plupart des contenus. Constaté via des applis qui m’ouvrent les liens facebook dans leur navigateur interne au lieu de m’ouvrir l’appli facebook.
Le 16/02/2021 à 02h57
La vie de ton voisin, c’est un peu short pour tirer des conclusions d’une banalité désolante. Ce projet est sans doute criticable dans son approche, mais il y a justement des gens de Bery qui font autre chose que se tourner les pouces pour le faire avancer et récupérerdu pognon. Ça devrait te réjouir…
Le 16/02/2021 à 07h00
Aucunement c’est LA preuve. Pourquoi? La cour des comptes n’est pas foutu de nous sortir un chiffre sur cette fraude ça va de 25 à 100 milliards d’euros, allé, on se colle à 75-80 comme beaucoup de spécialistes le disent? Allé, même 70, je suis beau jouers, une paille…combien de récupéré?
16 milliards, donc ils se branlent la nouille CQFD
A non, grâce a tweeter et fesses de boucs on va s’en foutre plein les fouilles! et du coup on en a pas rien a faire de la vie du voisin, on est bien en ligne sur un compte public, on va donc voir si l’aspirateur de bercy va lui demander des comptes, non je déconne, ils vont bien se marrer.
Le 16/02/2021 à 08h27
On alors, et je dis vraiment pas ça pour défendre la DGFiP, ils ont, comme toutes les administrations, pas assez de moyens pour bosser efficacement sur la fraude fiscale. Et ce genre de projet me renforce dans cette idée, ça sent vraiment le boss qui s’est dit “trop bien, avec du data mining et des algorithmes on va pouvoir attraper des fraudeurs sans embaucher de personnel”. M’est avis qu’ils vont être déçus.
Le 16/02/2021 à 08h43
Ils ont entraîné les moteurs sur les comptes FB de Bernard Arnault, les Mulliez et Patrick Drahi ?
Pour le coup je ne vois pas où est le problème de mettre un bot pour scanner ce genre de chose, tant que les données ne sont pas partagées avec d’autres services de la DGFIP.
Le 16/02/2021 à 09h32
Tu n’as pas l’air de te rendre compte de la difficulté de déceler et prouver la fraude fiscal :
-Tu as des pays qui volontairement cache tes citoyens (Luxembourg, Suisse même si ça s’amaliore mais reste le Panama et autre paradis fiscal)
-Le principe des holding et des prêtes-noms qui rend complexe d’identifier le propriétaire réel.
-Les flux d’argent massif dû à la bourse (High-Frequency-Trading)
-Les millions de sociétés à surveiller
-Les “petites fraudes” de comptabilité (passer la poussette et les couches du dernier dans les frais pro comme le faisaient les députés, comment tu le découvre sans passer la compta ligne par ligne ? Ca prend des jours, tu sais combien de note de frais font ce type de boulot ?)
-Toutes les fraudes aux donations (tu montes une asso par un prête-nom et tu fais des dons défiscalisés)
-Toutes les fraudes sur l’art (tableau à plusieurs millions qui vont de main en main, avec de la fiscalité avantageuse).
Au-delà du simple contrôle, il ne faut pas oublier que c’est le système fiscal même qui encourage/permet la “fraude”, qui est aussi un moyen pour les politiques de “rendre la pareille” à ceux qui les ont financés en faisant mine de lutter contre.
Comme pour l’optimisation fiscal, ça ne serait pas très compliqué de changer les règles du jeu pour la réduire drastiquement, mais ça serait un suicide financier/politique (regarde rien que la taxe GAFA avec les USA, alors que c’est une broutille par rapport à ce qu’ils devraient réellement payer).
Le 16/02/2021 à 10h03
Quand on veut on peut. C’est vrai que nous nous sommes les spécialistes pour créer moulte agences afin de bien diluer les effectifs pour une inefficacité maximale.
La dernière fois c’était quoi déjà? ah oui, une nouvelle cellule d’une 20aines de gus. C’est vrai que renforcer les diverses agences existante ça c’est pas bien des fois qu’ils deviennent enfin compétant.
La tu marques un super points, c’est comme tout au niveau administration.
mais on peut quand même remarquer que nous avons 10 000 agents pour la fraude fiscale et tadam, 4 000 pour la fraude sociale
Rapport de la cour des comptes de septembre 2019: 1 milliards d’euros de fraude aux prestations sociales (entre 8 et 10 serait plus réaliste mais c’est balot, en france on aime pas trop les outils de contrôle
Rapport de la cour des comptes de décembre 2019: 8.5 milliards d’euros de fraude aux cotisations sociales et 15 milliards pour la tva
La on parle des chiffres de la cour des comptes!!! Bon eux mêmes gueulent car nous n’avons aucun outils de suivi (mais bon on ne peut certainement pas les accuser d’être de dangereux gauchistes).
donc reprennons 15 + 8.5 qui nous font 23,5 milliards versus 1 milliard pour 10 000 agents versus 4 000
WHAT IS THE FOUQUE!!!
Le 16/02/2021 à 10h37
C’est difficilement comparable, vu que les montants sont pas du même ordre de grandeur.
C’est plus difficile (donc moins « rentable ») de détecter plein de petites fraudes, que de détecter quelques grosses fraudes.
Le 16/02/2021 à 22h48
23.5 versus 1 la on parle pas de petite fraude.
le 1 c’est de la petite fraude, le 23.5 c’est de la grosse donc au boulot les feignasses
dans ma boite on fait payer les grosses factures impayées, pas les petites CQFD
Le 16/02/2021 à 17h00
petit rappel: les commentaires sur NXI sont publics, ie accessibles sans compte ou mot de passe.
Le 16/02/2021 à 22h49
ouaipe c’est pour ça que je balance :). jusqu’a preuve du contraire ce sont mes et tes impôts
marrant de voir que les agents de bercy couvrent leurs potes de bercy fraudeur cf le canard enchainé du 4 décembre 2019
Le 17/02/2021 à 10h06
d’ailleurs, je me demande A QUOI peut servir ‘leur système de MdP.’
puisque TOUT ce qu’on écrit est visible par TOUS !!!