Bercy généralise l’utilisation du datamining

All your base are belong to usE

Le 07 janvier 2020 à 15h28

8 min

Droit

Il n'y a pas que #BigBrotherBercy au Minefi. Non contente d'être le pays qui a échangé « le plus de renseignements » au sujet de ses contribuables avec ses partenaires européens, la France commence à tirer les fruits de la généralisation du datamining en matière de lutte contre la fraude, « à l'origine de 14 % des opérations de contrôle » en 2018.

Dans l'introduction à son rapport sur « les grandes tendances du bilan 2018 de la lutte contre la fraude aux finances publiques », qui vient d'être rendu public, la Délégation nationale à la lutte contre la fraude (DNLF) se félicite que « de forts investissements réalisés en matière numérique et de science des données par de nombreux partenaires ont contribué à une meilleure identification des risques de fraude et à un meilleur ciblage des contrôles ».

« La France s’est fortement impliquée dans le développement des échanges automatiques au niveau multilatéral », se félicite ainsi la DNLF en guise de préambule. Au point que « concernant l’échange automatique sur les revenus, au niveau européen, la France est le pays qui a envoyé le plus de renseignements (sur 1,8 million de contribuables) et qui en a reçu le plus (sur presque 1 million de contribuables) ».

Une chose est d'échanger ou de collecter les données, une autre est de les traiter. En matière d'analyse du risque, la Direction générale des finances publiques (DGFIP) a de son côté « entrepris de généraliser l'utilisation du datamining et de l'analyse-risque » au point qu'« en 2018, les productions issues du service centralisé d'analyse de données ont été à l'origine de 14 % des opérations de contrôle ».

« Une cinquantaine de requêtes reposant sur des techniques d'apprentissage automatique ou d'analyse risque » ont été développées à cet effet, de sorte que l’application de ces requêtes et modèles statistiques puisse couvrir une grande partie des risques fiscaux, « dont une quinzaine relatifs à des fraudes en matière de TVA » et de déterminer, automatiquement et pour chaque entreprise, une « cotation traduisant le niveau de son risque fiscal ».

Plus de 24 000 dossiers, dont 12 700 comportant au moins une problématique en matière de TVA, ont ainsi été envoyés aux services de contrôle en 2018.

Du datamining pour lutter contre les biais de sélection

Suivant les recommandations d'un rapport du Conseil national de l’information statistique (CNIS) de juin 2017 consacré à « la mesure du travail dissimulé et ses impacts en termes de finances publiques », la DNLF a également engagé des travaux de recherche pour contribuer à la mesure et à l’évaluation du travail dissimulé.

Le rapport du CNIS estimait en effet que « malgré les efforts faits par les comptables nationaux, les estimations de fraude qu’ils retiennent en se fondant sur l’analyse des résultats des contrôles fiscaux ne tiennent qu’imparfaitement compte du biais de sélection lié au fait que les services fiscaux ciblent leurs contrôles sur les entreprises qu’ils jugent les plus susceptibles de frauder ».

Il appelait dès lors au développement de « méthodes de ciblage permettant la correction du biais de sélection dans l’évaluation de la dissimulation (« data mining ») », à mesure que le fait de « mieux identifier les critères motivant un contrôle fiscal (notamment si la DGFiP développe des contrôles fondés sur le datamining) permettrait d’obtenir des estimations plus fiables de la fraude ».

Le CNIS estimait par ailleurs « essentiel de mener des travaux statistiques de type datamining sur la population des particuliers-employeurs afin de favoriser l'identification des situations à risques ». En matière d'économie collaborative, il prônait une « mobilisation accrue des traces numériques laissées par les transactions en ligne, ce qui suppose de mettre en œuvre des techniques de type big data », notamment au sujet des micro-entrepreneurs.

Mais c'est du côté de l'agriculture que la DNLF s'est penchée, avec la signature d'un premier contrat de recherche, mobilisant les compétences d’un économètre, pour l’exploitation des données de contrôle de la Caisse centrale de la mutualité sociale agricole (CCMSA).

Le projet « repose sur la mobilisation des outils de data science, en vue d’une modélisation économétrique des pratiques de ciblage des contrôles et de détection des comportements des cotisants ». Pour autant, « des améliorations notamment méthodologiques (correction de biais et processus d’estimation) restent à apporter pour mieux cerner les comportements frauduleux à l’œuvre ». Les résultats sont attendus fin 2019.

7 heures pour se former à la data science et apprendre à programmer en R

La DNLF organise par ailleurs régulièrement des partages d'expériences avec d'autres administrations (le service d'analyse de risque et de ciblage (SARC) de la douane, Pôle emploi, organismes sociaux ...) sur des points techniques (algorithmes, outils), ou plus généraux (pilotage, modalités de diffusion et appropriation des productions, problématiques RH).

Elle propose également un stage de sensibilisation et d'initiation à la Data science censé permettre, en 7 heures et sans pré-requis, de « distinguer les 4 volets de la Data science : la statistique (volet descriptif), l’exploration des données (volet explicatif ou data mining), l’extrapolation des données (volet prédictif ou scoring, ainsi que le volet prescriptif) ». L'objectif est aussi de « savoir programmer les principaux modèles d’estimation et de détection » sous R Studio, l'environnement de développement du langage de programmation statistique R.

Le plan national 2016 - 2018 de lutte contre la fraude aux finances publiques ayant fait de l’amélioration de l’effectivité du recouvrement un de ses axes prioritaires, la DNLF a décidé d'y consacrer l'un de ses deux rencontres, intitulée « La science des données : quelles utilisations pour le recouvrement et la prévention de la défaillance ? ».

Après un panorama international par l'OCDE de l'utilisation de la data science pour optimiser le recouvrement fiscal, les finances publiques belges et françaises y ont « présenté leurs travaux sur la création de modèles de datamining pour mieux anticiper le risque de non-recouvrement », le rapport ne précisant pas combien de pays procèdent eux aussi de la sorte.

Chômage :+ 10 % d'affaires « présumées frauduleuses »,+ 14% de chômeurs fraudeurs

La DNLF impute par ailleurs au « meilleur ciblage des contrôles grâce aux techniques de datamining » le fait qu'en 2018, et alors que le nombre de cas de fraudes enregistrés par la Caisse nationale d’allocations familiales (CNAF) a baissé (de 45 100 en 2017 à 44 897 en 2018), le préjudice financier identifié a dans le même temps augmenté (de 291,1 à 304,6 M€).

Rapportés aux 12,8 millions d’allocataires, les cas de fraudes représentent environ 0,35 % de la population, et un préjudice moyen subi par les CAF de 6 785 €, contre 6 455 en 2017. L'an passé, le directeur général de la CNAF tenait à préciser que « l’immense majorité des personnes qui se trompent ne sont pas des fraudeurs », que près de 2 millions d’allocataires avaient certes dû rembourser un trop-perçu suite à des erreurs involontaires, mais que seules 8,5 % des fraudes détectées reposaient sur des faux et usages de faux.

Du côté de l'assurance chômage, « le montant total du préjudice global (préjudice subi et évité) pour l’année 2018 s’établit à 206,35 M€ (dont 125,31 M€), soit une hausse de 11,5 % par rapport à l’année 2017 », chiffres obtenus grâce à « l’exploitation du big data (requêtes et outil de datamining), les travaux réalisés au niveau national sur la certification de l’identité (et) la fiabilité des données recueillies auprès des employeurs (obtention directe des attestations sous forme dématérialisée) ».

De plus, « l’évolution constante du montant des préjudices s’accompagne d’une augmentation de la volumétrie des affaires qualifiées "présumées frauduleuses" (+ 10%), ainsi que du nombre de demandeurs d’emploi mis en cause (+ 14%) ». Cette augmentation ne relèverait pas tant du datamining que du « fort investissement de Pôle emploi dans la lutte contre la fraude tant au niveau de la direction générale (offre de services métier) qu’au niveau des régions avec les directeurs maîtrise des risques et leur responsable fraude ».

À titre de comparaison, le total des montants de la fraude détectée en matière fiscale et sociale a atteint 5,73 milliards d'euros en 2018, dont seulement 715 millions au titre des prestations sociales, et 656 des cotisations sociales, contre 4,05 (soit 71%) en matière fiscale. La DNLF ne précise pas ce que le datamining aurait permis au fisc d'identifier.

Commentaires (17)

carbier Abonné

Le 07/01/2020 à 19h59

Arkeen a écrit :

7h pour apprendre à programmer et devenir data scientist ? Damned, si j’avais su, j’aurais surement pas fait autant d’études …

Cela tombe bien le titre de la formation c’est initiation et sensibilisation

Macarie a écrit :

donc après 4 ans de formation pour être un développer de base (sans rien connaitre au data science).

Et bas ils ont pas froids au yeux, pourquoi pas 7 minutes tant qu’on y est une vidéo youtube et hop on est data scientist

Cela tombe bien ce n’est pas ce qui est dit: si tu avais lu le sommaire de la formation, tu aurais vu qu’il ne s’agit pas de développer mais d’utiliser des outils/logiciels directement via R Studio.

Idiogène

Le 07/01/2020 à 20h08

Arkeen a écrit :

…

A observer la Silicon Valley, je pense qu’on peut raisonnablement dire qu’on a passé le pic et qu’on est sur la pente du rétablissement. On ne pourra pas aller plus bas…

Macarie a écrit :

…

Oui, et c’est pour cette raison qu’il est nécessaire d’arrêter avec la simplification administrative et embaucher les bonnes personnes pour former plutôt que de rester au stade incantatoire.

Quitte à débaucher dans les banques. Ce ne serait pas totalement idiot vu le peu d’intérêt porté à une sauvegarde efficace de l’état en la matière.

Seulement la réalité de la situation est qu’au choix : un informaticien est fonctionnaire de fait, soit il est trop gentil pour saisir le piège et être écouté donc bon… c’est d’abord les conditions de travail des fonctionnaires qui sont à revoir. Et une partie de leurs missions certainement peu compatibles avec au choix : l’article 40 du code pénal ou encore la visibilité de ces questions qui en rebuterait plus d’un à l’entrée si tout était clair dès le départ.

Nous ne sommes pas nombreux à soutenir réellement le principe d’une numérisation de l’état, il serait bon de ne pas oublier ces quelques règles élémentaires avant d’expérimenter pour un résultat déjà connu : un accroissement de la fracture entre gouvernants et gouvernés.

anonyme_f525e46a95b50f94ea596fa0bc1b20fd

Le 07/01/2020 à 20h27

Idiogène a écrit :

Oui, et c’est pour cette raison qu’il est nécessaire d’arrêter avec la simplification administrative et embaucher les bonnes personnes pour former plutôt que de rester au stade incantatoire.

Quitte à débaucher dans les banques. Ce ne serait pas totalement idiot vu le peu d’intérêt porté à une sauvegarde efficace de l’état en la matière.

Seulement la réalité de la situation est qu’au choix : un informaticien est fonctionnaire de fait, soit il est trop gentil pour saisir le piège et être écouté donc bon… c’est d’abord les conditions de travail des fonctionnaires qui sont à revoir. Et une partie de leurs missions certainement peu compatibles avec au choix : l’article 40 du code pénal ou encore la visibilité de ces questions qui en rebuterait plus d’un à l’entrée si tout était clair dès le départ.

Nous ne sommes pas nombreux à soutenir réellement le principe d’une numérisation de l’état, il serait bon de ne pas oublier ces quelques règles élémentaires avant d’expérimenter pour un résultat déjà connu : un accroissement de la fracture entre gouvernants et gouvernés.

Ce que je sousentendais (visiblement je m’y suis mal prise vu que mon message n’a pas été compris), c’est qu’on met n’importe qui non formé n’importe ou (suffi de voir des commune (mairie chez vous)), ou ils ont masse machine tous branché sur une salade de switch auto géré, puis ils se plaigne quand un switch tombe et fait tous tombé en meme temps.

Donc pour en finir avec ma métaphore, on va encore sous estimer le temps de formation, prendre des gens sous formé, qui vont faire n’importe quoi (du a leur méconnaissance profonde du domaine), puis se plaindre que le pays a un retard techologique monumentale.

Idiogène

Le 07/01/2020 à 21h30

Faire n’importe quoi ou ne rien faire est le principe du droit fiscal. Jusque là personne n’est en retard technologique sur ce principe lorsque il est question d’argent.

C’est déjà bien de sensibiliser des agents à ces questions avec un support qui n’a pas l’air déconnant, et plus simple qu’avec des agents de Police. Les faits le démontre en France. " />

Mimoza Abonné

Le 07/01/2020 à 21h53

Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c’est pas le chômeur " /> mais là on passe du coté politique de la chose " />

Patch Abonné

Le 07/01/2020 à 22h10

Mimoza a écrit :

Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c’est pas le chômeur " /> mais là on passe du coté politique de la chose " />

Point n°1 : on ne touche pas aux copains.

Point n°2 : on ne touche pas à ceux qui pourraient nous donner un poste en or dans le privé dans qques années.

carbier Abonné

Le 07/01/2020 à 22h29

Mimoza a écrit :

Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c’est pas le chômeur " /> mais là on passe du coté politique de la chose " />

Patch a écrit :

Point n°1 : on ne touche pas aux copains.

Point n°2 : on ne touche pas à ceux qui pourraient nous donner un poste en or dans le privé dans qques années.

A priori lire le rapport cité dans la news est en option avant de commenter.

Hint: ce n’est pas parceque NXi se focalise sur un seul aspect de ce rapport, que le reste n’existe pas.

Exemple

L’article 109 de la loi de finances pour 2017 prévoyait, à titre expérimental et pour une durée de deux ans, que le Gouvernement puisse autoriser l’administration fiscale à indemniser des personnes étrangères aux administrations publiques qui portent à sa connaissance des informations révélant certains comportements de fraude fiscale.

Ce dispositif, ciblé sur la lutte contre la fraude internationale, vise à démontrer la localisation en France de certaines activités prétendument localisées à l’étranger ou la domiciliation en France de certains contribuables. Cette fraude est particulièrement difficile à appréhender compte tenu des montages de plus en plus sophistiqués mis en place par certains contribuables pour restreindre le pouvoir de contrôle de l’administration.

L’expérimentation a permis de confirmer que ce dispositif constitue un outil particulièrement utile pour l’administration fiscale. Les contrôles fiscaux engagés sur la base des renseignements ainsi obtenus ont, en effet, permis de recouvrer des montants importants de droits et pénalités.

C’est pourquoi, à l’instar de nombreux pays de l’OCDE, tels que les États-Unis, l’Italie, l’Allemagne et le Royaume-Uni, le législateur a pérennisé ce dispositif à compter du1erjanvier 2019

romu79

Le 08/01/2020 à 09h00

Bonne nouvelle ! On pourra trouver plus facilement ceux qui cumulent les postes et font des fausses déclarations à la HATVP !

Norde

Le 08/01/2020 à 09h34

“Elle propose également un stage de sensibilisation et d’initiation à la Data science censé permettre, en 7 heures et sans pré-requis, de « distinguer les 4 volets de la Data science : la statistique (volet descriptif), l’exploration des données (volet explicatif ou data mining), l’extrapolation des données (volet prédictif ou scoring, ainsi que le volet prescriptif) ». L’objectif est aussi de « savoir programmer les principaux modèles d’estimation et de détection » sous R Studio, l’environnement de développement du langage de programmation statistique R.

Ah donc finit les astuces pour masquer les chiffres du chômage et du marché du travail " />

 ?

 

Enfin je sait pas hein, mais personnellement la première chose que j’ai apprise dans le cadre des statistiques c’est de réfléchir à ce que j’analyse et ce que cela signifie " />

Car bon, si les données de base ne sont pas bonne, peut importe les statistiques, cela restera la communication officielle de l’état du n’importe quoi.

js2082

Le 08/01/2020 à 09h47

Patch a écrit :

Point n°1 : on ne touche pas aux copains.

Point n°2 : on ne touche pas à ceux qui pourraient nous donner un poste en or dans le privé dans qques années.

 +1000

La fraude des chômeurs (300 millions d’euros) est juste ridicule comparée aux fraudes des entreprises et grosses fortunes, estimées à plus de 90 milliards d’euros soit largement de quoi combler le déficit annuel chronique du budget de l’État français.

La corruption des politiques français est le principal fléau responsable de nombre de problèmes en france, outre le fait que cela montre le mauvais exemple à suivre aux citoyens.

 

Tant que rien ne sera fait de ce coté, la fraude continuera et il restera difficile de reprocher leur mauvais comportement aux fraudeurs.

Patch Abonné

Le 08/01/2020 à 09h49

carbier a écrit :

A priori lire le rapport cité dans la news est en option avant de commenter.

Hint: ce n’est pas parceque NXi se focalise sur un seul aspect de ce rapport, que le reste n’existe pas.

Exemple

Lol.

JoePike

Le 09/01/2020 à 07h36

There are three kinds of lies : lies, damned lies, and statistics

( Mark Twain )

" />

Flynn

Le 10/01/2020 à 08h26

Donc ils ne ciblent absolument que les pauvres :

Chômeurs

Agriculteurs

Fraudes a la CNAF

C’est tellement pathétique et révélateur.

Z-os Abonné

Le 07/01/2020 à 17h27

A mon humble avis, rien que pour un cours correct sur les stats qui n’entre pas trop dans les détails il faudrait au bas mot 2 semaines pour que les notions soient comprises. De là à les utiliser convenablement, il y a encore un cap à franchir.

Idiogène

Le 07/01/2020 à 17h43

C’est la simplification administrative. " />

Arkeen Abonné

Le 07/01/2020 à 18h35

7h pour apprendre à programmer et devenir data scientist ? Damned,  si j’avais su, j’aurais surement pas fait autant d’études …

Sinon, je trouve la dernière phrase édifiante : 

 

La DNLF ne précise pas ce que le datamining aurait permis au fisc d’identifier.  

C’est un peu admettre sans détour qu’ils ne savent pas trop ce qu’ils font non ? Ou qu’ils savent que c’est inutile mais ne l’assument pas ?

Je me demande quand même quand est-ce qu’on attendra enfin le « pic des attentes exagérées » concernant l’utilisation du machine learning, du “Big Data”, etc.

anonyme_f525e46a95b50f94ea596fa0bc1b20fd

Le 07/01/2020 à 18h39

donc après 4 ans de formation pour être un développer de base (sans rien connaitre au data science).

Et bas ils ont pas froids au yeux, pourquoi pas 7 minutes tant qu’on y est une vidéo youtube et hop on est data scientist