Le datamining, cache-misère contre la fraude fiscale
La parabole du fisc prodigue
Le 20 août 2020 à 15h28
9 min
Droit
Droit
Le choix du datamining et des algorithmes implique d'amasser de plus en plus de données personnelles. Bercy promet des résultats importants dans la lutte contre la fraude fiscale. Selon un rapport de la commission des finances du Sénat, toutefois, le bilan est pour l’instant très mitigé.
À chaque fois qu’ils s’expriment sur la fraude fiscale, les ministres du Budget mettent en avant leurs résultats, forcément bons, en noyant le public sous une pluie de chiffres. En 2019, les montants recouvrés grâce au contrôle fiscal s’élevaient à 11,3 milliards d'euros. Une hausse de 30 % par rapport à 2018.
Ce chiffre de 12 milliards (Gérald Darmanin ayant ajouté les 500 millions payés par Google à ces 11,3 milliards) a été abondamment repris par la presse en début juin. Mais pour les sénateurs Claude Nougein (LR) et Thierry Carcenac (PS), qui ont conduit une mission sur ce sujet, « ces chiffres doivent être pris avec précaution, tant dans l'appréciation de leur montant que dans leur évolution sur le long-terme. »
Les données 2019 viennent juste enrayer une baisse importante depuis 2015. Pire, depuis deux ans le ministre du Budget ne met en avant que les montants encaissés et plus les droits et pénalités notifiés par le fisc. Or, entre le contrôle, la notification des droits et pénalités au contrôlé, les éventuels recours, et l’encaissement, il peut y avoir parfois des années.
Et si l'on regarde le montant des droits et pénalités notifiés (c’est-à-dire avant les éventuels recours et avant leur paiement), les résultats s’effondrent :- 35 % en quatre ans. Ce chiffre médiocre était mis sous le tapis avant la publication de ce rapport parlementaire.
Si les pénalités notifiées poursuivent leur baisse, les encaissements risquent de suivre dans les prochaines années. D’autant que la hausse en 2019 de ces derniers est en partie due à la nouvelle loi Essoc, qui encourage le fraudeur à régler rapidement, à l’amiable, les pénalités. Un « effet d’aubaine » qui ne se reproduira pas. Avec les crises sanitaires et économiques, les chiffres 2020 du contrôle fiscal devraient plonger.
Autre problème, le taux du recouvrement par le fisc stagne depuis plusieurs années à 68 %, même si une nouvelle procédure de « saisie administrative à tiers détenteur » suscite beaucoup d’espoirs à Bercy.
Fouiller nos données pour repérer les fraudeurs
Pour pallier ces mauvais résultats, Bercy a depuis plusieurs années une réponse magique : le datamining. Les nouvelles technologies, les échanges d’information au niveau international, l’accès de plus en plus simplifié à des bases de données, l’obligation qu’ont de nombreux professionnels de signaler toute suspicion de fraude, rendent possibles des croisements qui n’étaient pas envisageables avant.
Pour gérer ces téraoctets de données, le ministère a créé en 2013 une « mission requêtes et valorisation » (MRV), d’abord consacrée aux entreprises, élargie depuis aux particuliers.
La MRV modélise les comportements frauduleux en s'appuyant sur des exemples de fraude avérée : « le but est d'identifier, par des méthodes statistiques ou mathématiques, les critères caractérisant une personne fraudeuse afin d'établir un profil type qui sera ensuite appliqué à une population cible, pour déceler des comportements similaires. »
Une méthode apprenante, qui s’enrichit grâce à des nouvelles bases de données. La MRV déploie aussi des modèles dits « non supervisés », qui détectent des groupes de personnes au comportement atypique, susceptible d'être assimilé, après analyse, à de la fraude et fait aussi des analyses de réseaux, pour faire ressortir des entités ayant une forte proximité avec des fraudeurs.
Selon les sénateurs, les techniques d'analyse de données qu’utilise la MRV « sont sans cesse étendues. En plus du datamining et du recours à l'intelligence artificielle, la mission développe le textmining, soit le traitement de données non structurées [textes ou images]. En parallèle, une expérimentation est menée dans plusieurs départements afin de croiser les déclarations des contribuables, les vues aériennes et les plans cadastraux pour traquer les erreurs, intentionnelles ou non, de déclaration des contribuables. Pour ce faire, la DGFiP s'appuie sur un logiciel développé par la société Accenture, dont le coût est estimé à près de 20 millions d'euros. »
Cette MRV traite aujourd'hui plus de 200 téraoctets de données. Un chiffre qui ne cesse de gonfler, Bercy étant toujours vorace pour accéder à des nouvelles bases. La DGFiP a déjà accès à des données des administrations sociales, du monde foncier ou même des réseaux sociaux.
Une stratégie d’élargissement des bases rarement débattue, mis à part cet automne lors des débats parlementaires qui ont permis au fisc de pomper les données publiques mises en ligne sur Facebook et Instagram (le projet #BigBrotherBercy).
La MRV devrait compter 30 agents d’ici la fin de l’année. Une équipe sous-dimensionnée selon Vincent Drezet du syndicat Solidaires finances publiques que nous avons interrogé.
Les résultats décevants des algorithmes
Mais les résultats du datamining sont pour l’instant décevants. En 2019, 22 % des contrôles des entreprises et 11 % des contrôles particuliers trouvaient leur origine dans les algorithmes de la MRV. Un taux qui doit fortement augmenter d’ici 2022 : la moitié des contrôles devront trouver leurs sources dans les listes fournies par la MRV. Problème : si elle est à la base de 22 % des contrôles, la MRV n’était à l’origine que de 6 % des droits mis en recouvrement.
Pour les sénateurs, « en donnant la priorité à la programmation centralisée des contrôles, [Bercy] risque de remettre en cause les initiatives des brigades locales, qui connaissent bien le tissu fiscal de leur territoire. »
« Cela alimente le sentiment selon lequel le datamining, en dépit des affirmations du Gouvernement, tarde à produire ses effets et cela conduit également à s'interroger sur le ciblage des dossiers par la MRV. » En bref, l’intelligence artificielle est pour l’instant moins bonne que les humains pour cibler les entreprises à contrôler.
Parmi les raisons soulevées par les parlementaires, « les logiciels de datamining, d'intelligence artificielle et de textmining actuellement développés ont du mal à isoler et à détecter les cas de fraude complexe. »
Pour Vincent Drezet, de Solidaires finances publiques, la centralisation des contrôles se fait au détriment des contrôleurs et vérificateurs de terrain qui connaissent leurs territoires. Par ailleurs, Bercy taille depuis des années dans les effectifs, et cela va se poursuivre. Malgré les promesses de sanctuariser les personnels dédiés au contrôle, ceux-ci ont baissé de 7,8 % entre 2014 et 2018, même si cette baisse a moins affecté les emplois les plus qualifiés. Difficile de lutter contre la fraude quand, sur le terrain, le nombre d’agents diminue.
Et maintenant la fraude sociale
Parallèlement, l’Assemblée nationale conduit une commission d’enquête sur la fraude sociale, présidée par le député Patrick Hetzel (LR) et rapportée par Pascal Brindeau (UDI). Elle auditionne un à un l’ensemble des directeurs des caisses de sécurité sociale. Chacun vient souligner l’importance que prend le datamining pour lutter contre la fraude.
Parmi les plus avancées, la Caisse nationale des allocations familiales, Ainsi, Vincent Mazauric, son directeur général, a expliqué aux députés que la CNAF s’est mise au datamining en 2012. Par exemple, elle repère les déclarations trimestrielles de ressources faites depuis une adresse IP située hors de France.
En 2019, 9 000 contrôles conduits à ce titre ont permis le rappel de 55 millions d'euros d’indus, dont un peu plus de 50 % correspondaient à des situations frauduleuses. Reste que le datamining représente moins de 10 % des 324 millions d'euros fraudés repérés par la CNAF l’an dernier.
Même discours pour l’assurance-chômage. Comme l’ont expliqué des représentants de Pôle emploi à la commission d’enquête, une dizaine de personnes consacrent déjà une partie de leur activité au croisement des données et aux algorithmes.
L’organisme est encore en rodage, mais souhaite « créer des algorithmes de plus en plus puissants, qui se fondent davantage sur le comportement des personnes. La fraude n’est pas liée à des caractéristiques individuelles, mais à des comportements – la soudaine présentation d’une attestation de période de travail par un demandeur d’emploi arrivant en fin de droit, par exemple. »
Autre exemple, l’assurance maladie qui effectue des contrôles sur les prestations médicales si un médecin délivre trop de prescriptions d’un médicament ou d’arrêts maladie.
Les alertes du Défenseur des droits
Des outils algorithmiques qui engendrent pourtant des discriminations. Auditionné par la commission d’enquête, l’ancien Défenseur des droits Jacques Toubon a souligné qu’en 2014, « parmi la population contrôlée, la proportion d’allocataires percevant le RSA était de 40 % supérieure à celle de l’ensemble des allocataires de la branche "famille". Autrement dit, non seulement on vise la nationalité, mais on suspecte les plus précaires d’être les plus portés à frauder. »
Ces ciblages discriminatoires anti-étrangers et anti-pauvres, « quelle que soit la technologie employée, ne font que relayer préjugés et stéréotypes, conduisant à une surreprésentation de ces populations parmi les fraudeurs. Autrement dit, on finit par démontrer ce que l’on voulait démontrer ! Or les réalités statistiques ne démontrent pas ces préjugés. Si l’on identifie un nombre d’indus plus élevé parmi les bénéficiaires des minimas sociaux, c’est précisément parce qu’ils font l’objet de contrôles plus nombreux. »
Le datamining, cache-misère contre la fraude fiscale
-
Fouiller nos données pour repérer les fraudeurs
-
Les résultats décevants des algorithmes
-
Et maintenant la fraude sociale
-
Les alertes du Défenseur des droits
Commentaires (33)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 20/08/2020 à 19h03
Cet article manque singulièrement de profondeur. Bon a bien compris que le but ultime était de flinguer le datamining mais en intro qui a décidé qu’une baisse ou une augmentation du recouvrement était une bonne ou une mauvaise nouvelle et/ou un constat d’échec ?
A montant fraudé équivalent cela se comprend, mais comme par définition ces montants ne sont pas publiques qui et comment fait-on pour estimer cette action annuellement ?
Le 20/08/2020 à 20h01
Pas grave si la technologie de l’État utilisée comme béquille d’un système social(iste) à la dérive ne fonctionne pas : les banques vont être bientôt dans l’obligation de déclarer les locataires de coffres-forts. Le fisc n’aura plus qu’à se servir directement chez les particuliers (une fois de plus)…
Le 20/08/2020 à 20h37
La question n’est pas : “Le datamining peut il améliorer le contrôle fiscal ?”
Mais “Le datamining permettra t’il de l’améliorer ?”
A termes, c’est certain. La matière s’y prête abondamment. Les outils sont en cours de création. Les vérificateurs ne font que participer a un beta test géant.
Le 20/08/2020 à 22h59
Quel seum de droite en commentaire…
L’article manque de profondeur ? Le problème primaire soulevé par l’article n’est pas l’augmentation ou la baisse du recouvrement, c’est que le ministre en communiquant sur le montant encaissé se vante de sommes qui ont été obtenu par une lutte contre la fraude plus ancienne que son action. Il serait, comme le souligne l’article, plus judicieux de communiquer sur les notifications qui témoignent davantage de son activité récente (et de sa volonté de lutter contre la fraude fiscale). Mais il semble donc que ça ne soit pas bien glorieux…
Le datamining pourrait améliorer le contrôle fiscal, mais outre les problèmes d’atteinte à la vie privée, si les algorithmes de datamining sont, comme en parle l’article, biaisés et ciblent les plus précaires et les étrangers alors de la même manière que les systèmes de police prédicitves ça ne sera qu’un outil d’oppression supplémentaire plutôt que de Justice.
Merci M.Januel de cet article fort intéressant mettant en perspective les annonces du pouvoir.
Le 20/08/2020 à 23h56
Merci pour cet article de qualité
Le 21/08/2020 à 04h50
C’est possible. D’ailleurs personne ne demande le démantèlement de la MRV.
Mais pour l’instant, les résultats ne sont pas là, contrairement à ce qu’annoncent les ministres dans leur communication. Mettre en avant le datamining permet de masquer le démantèlement d’autres éléments du contrôle fiscal.
Le 21/08/2020 à 06h40
Top comme article
Mais il y a encore plein d’idées de croisement à faire
Les ventes de voiture, abonnement télé smartphone ….
Le 21/08/2020 à 08h32
Le datamining n’est pas magique et il faudra probablement des années avant de le maitriser pour ce cas de figure. De ce fait je ne comprends pas non plus le but de l’article.
Le 21/08/2020 à 10h09
Qu’une techonologie ou un savoir faire soit survendu par une administration on a l’habitude. Mais pour qui sait faire une jointure SQL, apprendre que le “data mining” (sic) est arrivé si tard à Bercy a de quoi surprendre.
Après penser que les “zalgorithment” remplacent le travail humain est illusoir… Il faut bien du monde pour définir et affiner l’extraction des informations dans les donnés, et aussi du monde pour utiliser ces informations.
Le 21/08/2020 à 10h37
Le problème n’est pas la jointure SQL mais le fait de faire communiquer les infos de système de données différents.
Comme l’exemple de croiser les fichiers assurances de voiture avec celui des cartes grises.
Pour la fraude fiscale c’est pareil, faut mixer un max de bdd et ensuite faire les bonnes requêtes pour remonter les infos pertinentes.
Pour travailler côté banque/assurance et caisse des dépots, on commence vraiment à faire du datamining poussé. Du côté de l’Etat il faut des lois pour autoriser à faire ce genre de taf donc c’est plus long à venir mais d’ici 5-10ans max ce sera fait.
Le 21/08/2020 à 10h17
[quote] CNAF s’est mise au datamining en 2012. Par exemple, elle repère les déclarations trimestrielles de ressources faites depuis une adresse IP située hors de France. [/quote]
c’est moi ou cet exemple n’illustre pas du tout le propos?
Le 22/08/2020 à 00h24
Les allocations familiales sont destinées à des personnes domiciliés fiscalement sur le territoire français.
Tout bénéficiaire ne peut se trouver en dehors du territoire français plus de 6 mois.
A partir du moment où un allocataire effectue sa déclaration depuis un pays étranger, il est raisonnable de se questionner et enquêter afin de savoir si les déclarants sont bien ou pas des bénéficiaires valides.
Le 21/08/2020 à 10h24
Et surtout, il ne faut pas oublier la possibilité de contournement du système.
Pendant longtemps, les contrôles automatisés ne se basaient que sur l’activité de l’entreprise ce qui faisait qu’une entreprise dont le CA ne variait pas ou très peu d’une année sur l’autre n’avait jamais de contrôles.
Ils ont tenté d’améliorer la chose en se focalisant sur la correspondance entre les montants déclarés et les montants officiellement reçus, mais le système était aisément contournable en utilisant des artifices comptables.
A mon sens, faut pas s’attendre à des miracles avec le datamining: à moins de vivre dans un état qui contrôle le moindre de tes faits et gestes, la fraude sera toujours possible.
Le 21/08/2020 à 11h09
Avant de parler de dataming à la sécurité sociale, il faudrait déjà qu’elle qutite le système ADELI et passe au RPPS exclusif pour identifier correctement le prescripteur et éviter qu’ils ne cachent derrière le numéro ADELI d’un hôpital.
Après, on va emmerder les généralistes qui signent trop de bons de transports??
Mais qui a décidé de supprimer les hôpitaux de proximité car pas assez “ actif” dans tels domaine et qui incite les hôpitaux à ne pas signer de bons de transports aux patients qu’ils ont convoqués??
Et comme le dit l’article, c’est beau de sortir plein de chiffres mais il faut ensuite du personnels pour les exploiter et enclencher des procédures en cas de fraude. Mais on baisse le nombre de policiers, de médecins et pharmaciens inspecteurs, de contrôleurs des impôts, alors…
Le 21/08/2020 à 11h11
Par le système lui-même : les agents du fisc en retraite font de merveilleux conseillers fiscalistes et juridiques…
Le 21/08/2020 à 11h56
À chaque fois qu’ils s’expriment sur la fraude fiscale, les ministres du Budget
mettent en avant leurs résultats, forcément bons, en noyant le public sous une pluie de chiffres….
c”‘est leur tactique…pour mieux, nous, faire avaler la Pilule, voyons” !
YouTube
Le 21/08/2020 à 12h12
Ce qui est regrettable, c’est qu’avec le versant répressif, il n’y ait aucun versant plus vertueux et éthique de l’utilisation de ces algorithmes. Toutes les erreurs fiscales ne sont pas des fraudes. On pourrait par exemple imaginer des outils d’aide à la complétion de sa déclaration fiscale, car en l’état, c’est vraiment extrêmement complexe dès lors que l’on sort de la dizaine de cases “basiques”.
Les outils de Bercy ne sont jamais justes, transparents et éthiques.
On pourrait imaginer un assistant qui agirait comme un pense-bête sur certains sujets avec les mêmes outils de data-mining, algorithmes prédictifs, etc.
Ex :
Après on vient s’étonner que tout le monde à peur quand on évoque un algo, il existe un réel fondement.
Le 21/08/2020 à 13h52
ce qui m’interpelle c’est d’utiliser le terme data-mining pour detecter des adresse IP de connection étrangère. Ce n’est pas trop du datamining ce truc, c’est plus une gestion des logs de connection pas trop mauvaise.
Le 21/08/2020 à 15h31
On est visiblement loin du datamining : pourquoi parler de statistique ou d’algorithme, le principe de base du big data et d’y coller un réseau neuronal, du coup y’a pas d’algorithme ou de statistiques, l’IA propose des noms à controller : si il y’avait fraude elle à un bon point et appprend de ce succès, sinon une petite baffe derrière la tête et elle apprend de son échec :)
Rien que le nom de l’entité prouve qu’ils n’y pigent rien : “mission requêtes et valorisation”
Le 22/08/2020 à 02h14
Détecter l’origine de l’ip c’est pas du datamining, on est sur que le gars de la caf sait de quoi il parle au moins ?
Le 22/08/2020 à 07h20
L’origine de l’IP pour les déclaration est un exemple de donnée collectée, recoupée et exploitée (ce qui est au passage la définition du datamining : retrouver une information au sein d’un ensemble de données par utilisation de méthodes telles que l’apprentissage machine, les statistiques ou encore les bases de données), je pense que vous avez oublié ce mot dans le phrase.
Le passage complet de l’intervention :
Si ce n’est pas de l’exploitation de données avec pour objectif d’extraire une information, qu’est-ce que c’est cette pratique ? J’ai l’impression que chacun a sa définition de datamining.
Le 25/08/2020 à 07h17
l’exemple est malvenu, même sur mon site rpi pi, je peut identifier facilement c’est vraiment trivial hein ! les ip pays des IP qui se connecte.
le data mining ce serais plus des algos ou tu as besoin de R et d’un mathematicien pour la mise en place, avec un peu IA pour sortir les fraudes ne venant pas d’une IP d’un autre pays. Detecter les fraudes a partir d’une IP c’est vraiment triste que cela soit fait seulement en 2019⁄2020.
Le 25/08/2020 à 16h17
J’ai mis la définition du datamining dans mon commentaire. Ils croisent IP source et déclarations, c’est techniquement de l’exploitation de données… Le terme anglais fait juste un peu plus “in”.
Le 23/08/2020 à 06h40
Des algos pour traquer les pauvres , ceux qui fraudent à une échelle industrielle ont une bardée d’avocat pour passer légalement entre les gouttes … rien de neuf sous le soleil …
Le 23/08/2020 à 15h04
“selon que vous soyez riches, ou pauvres, etc…………………” !
Le 23/08/2020 à 14h11
Le 24/08/2020 à 14h05
Okay c’est noté, sur mes prochaines fraudes (ou pas), je ferais attention à ne pas utiliser les techniques les plus classiques histoires de baisser les risques de se faire flag par du datamining.
Et on désactive le vpn quand on fait sa déclaration.
Et puis on va éviter d’être trop pauvre et de toucher les aides les plus courantes vu que naturellement ce sont les niches où le plus de fraudeurs seront trouvés… Vite gagner un salaire de ministre histoire d’être dans les tailles de données négligeables..!
Le 24/08/2020 à 14h33
Oh Bercy :
N’empêche la Chine n’a pas ce problème de VPN, on devrait faire des réunions dans la salle 2Z27B-6 pour en discuter entre sous-chefs, chef.
Le 25/08/2020 à 06h43
Ca ne date pas d’hier.
Les gros fraudeurs ont l’habitude : Ils ont des avocats fiscalistes qui connaissent très bien le système et la manière de le détourner, et ont même parfois participé à sa mise en place.
Et en plus, pour le cas où, il y a le verrou de Bercy:
https://www.liberation.fr/politiques/2017/07/25/a-l-assemblee-en-marche-protege-le-verrou-de-bercy_1586156
C’est ce que j’appelle la technique des ripoux : Tu gagnes petit, mais tu gagnes souvent.
Une autre manière de voir, c’est que quand l’administration va tenter de récupérer des centaines de milliers d’euros auprès de UN gros contribuable, ça va mettre 10 ans de procédures. Alors que grappiller quelques centaines d’euros à des centaines de milliers de gens qui lutteront pas pour ces sommes (entre autre car ce n’est pas “rentable”, mais aussi car ils ont une activité à coté et pas les moyens d’engager un avocat pour ça, voire qu’ils n’ont pas les connaissances pour) , ben c’est largement plus rentable.
En plus il ne faut pas oublier qu’à l’heure des réserves fractionnaires, du quantitative easing et des emprunts à taux négatif, le but des prélèvements d’impôts n’est PAS de “payer les infrastructures”, ou payer les fonctionnaires, ou quoi que ce soit : Il suffirait de créer ex nihilo la monnaie nécessaire, puisque les taux sont très bas.
Le but des impôt divers & variés est juste de prouver aux créanciers (qui “prêtent” l’argent à la France, comme les fonds de pension ou les banques internationales) que oui, il y a des tas de citoyens serviles dans ce pays qui travaillent pour eux et qui consomment avec le reste de leurs ressources.
C’est un savant jeu d’équilibriste , mais vicié dès l’origine :-(
Le 25/08/2020 à 07h12
C’est le sénat qui voudrait minimiser le verrou de Bercy. La sagesse fiscale est-elle un produit de première nécessité ?
Le 25/08/2020 à 07h32
Je suis d’accord avec toi, je pense en revanche que tu inverse ce que tu prend pour une cause avec ce qui est une conséquence, vis a vis du fait que l’on frappe sur les petits plutôt que sur les gros poissons.
Ce serait beaucoup plus rentable de s’attaquer aux gros. Déjà parce que si on le voulait les procès iraient bien plus vites et parce que ça représente des sommes énormes (surtout que souvent derrière c’est relié a des affaires de fraude d’entreprises et là on change d’ordre de grandeur en passant du million au milliard de manque à gagner).
Ceq qui fait qu’on ne touche pas aux gros, c’est parce qu’ils se serrent les coudes pour faire un sorte que le système ne les attaque pas… Le verrou de Bercy est un bon exemple de ta part. Si ce sont les gros poissons qui dictent les règles, normal qu’elles soient faites de façon a ce qu’ils ne risquent pas grand chose et qu’ils focalisent les politiques anti-fraude sur les plus pauvres.
..alors même que pour la sécurité sociale par exemple, le bilan est positif entre les pertes dues à la fraude et les “économies” de non usage de leurs droits pour 30% des potentiels bénéficiaires..!
Bref pour la faire court si on ne s’attaque pas aux gros c’est parce qu’ils ont des potes qui ont fait un sorte qu’on ne le fasse pas pour se focaliser sur les petits a la place…
Le 25/08/2020 à 07h31
+1
C’est d’ailleurs hallucinant de voir comment tournent les choses maintenant :
Le citoyen bosse pour la finance qui est actionnaire de son entreprise, et il est prélevé de cotisations pour l’état qui finance la dette a la finance.
La finance jouit de la création de monnaie.
La finance prête au citoyen moyennant un taux bien deguelasse (mais le citoyen est heureux).
On est dans un beau pays démocratique il n’y a qu’à voir les procès des hommes politiques), 26eme IDH mondial et ça descent…
On est sur le modèle USA, avec les impôts en plus. Vive la France.
Le 25/08/2020 à 08h31
Et on a eu une nouvelle preuve de la démocratie justement hier…