Bercy généralise l’utilisation du datamining
All your base are belong to usE
Le 07 janvier 2020 à 15h28
8 min
Droit
Droit
Il n'y a pas que #BigBrotherBercy au Minefi. Non contente d'être le pays qui a échangé « le plus de renseignements » au sujet de ses contribuables avec ses partenaires européens, la France commence à tirer les fruits de la généralisation du datamining en matière de lutte contre la fraude, « à l'origine de 14 % des opérations de contrôle » en 2018.
Dans l'introduction à son rapport sur « les grandes tendances du bilan 2018 de la lutte contre la fraude aux finances publiques », qui vient d'être rendu public, la Délégation nationale à la lutte contre la fraude (DNLF) se félicite que « de forts investissements réalisés en matière numérique et de science des données par de nombreux partenaires ont contribué à une meilleure identification des risques de fraude et à un meilleur ciblage des contrôles ».
« La France s’est fortement impliquée dans le développement des échanges automatiques au niveau multilatéral », se félicite ainsi la DNLF en guise de préambule. Au point que « concernant l’échange automatique sur les revenus, au niveau européen, la France est le pays qui a envoyé le plus de renseignements (sur 1,8 million de contribuables) et qui en a reçu le plus (sur presque 1 million de contribuables) ».
Une chose est d'échanger ou de collecter les données, une autre est de les traiter. En matière d'analyse du risque, la Direction générale des finances publiques (DGFIP) a de son côté « entrepris de généraliser l'utilisation du datamining et de l'analyse-risque » au point qu'« en 2018, les productions issues du service centralisé d'analyse de données ont été à l'origine de 14 % des opérations de contrôle ».
« Une cinquantaine de requêtes reposant sur des techniques d'apprentissage automatique ou d'analyse risque » ont été développées à cet effet, de sorte que l’application de ces requêtes et modèles statistiques puisse couvrir une grande partie des risques fiscaux, « dont une quinzaine relatifs à des fraudes en matière de TVA » et de déterminer, automatiquement et pour chaque entreprise, une « cotation traduisant le niveau de son risque fiscal ».
Plus de 24 000 dossiers, dont 12 700 comportant au moins une problématique en matière de TVA, ont ainsi été envoyés aux services de contrôle en 2018.
Du datamining pour lutter contre les biais de sélection
Suivant les recommandations d'un rapport du Conseil national de l’information statistique (CNIS) de juin 2017 consacré à « la mesure du travail dissimulé et ses impacts en termes de finances publiques », la DNLF a également engagé des travaux de recherche pour contribuer à la mesure et à l’évaluation du travail dissimulé.
Le rapport du CNIS estimait en effet que « malgré les efforts faits par les comptables nationaux, les estimations de fraude qu’ils retiennent en se fondant sur l’analyse des résultats des contrôles fiscaux ne tiennent qu’imparfaitement compte du biais de sélection lié au fait que les services fiscaux ciblent leurs contrôles sur les entreprises qu’ils jugent les plus susceptibles de frauder ».
Il appelait dès lors au développement de « méthodes de ciblage permettant la correction du biais de sélection dans l’évaluation de la dissimulation (« data mining ») », à mesure que le fait de « mieux identifier les critères motivant un contrôle fiscal (notamment si la DGFiP développe des contrôles fondés sur le datamining) permettrait d’obtenir des estimations plus fiables de la fraude ».
Le CNIS estimait par ailleurs « essentiel de mener des travaux statistiques de type datamining sur la population des particuliers-employeurs afin de favoriser l'identification des situations à risques ». En matière d'économie collaborative, il prônait une « mobilisation accrue des traces numériques laissées par les transactions en ligne, ce qui suppose de mettre en œuvre des techniques de type big data », notamment au sujet des micro-entrepreneurs.
Mais c'est du côté de l'agriculture que la DNLF s'est penchée, avec la signature d'un premier contrat de recherche, mobilisant les compétences d’un économètre, pour l’exploitation des données de contrôle de la Caisse centrale de la mutualité sociale agricole (CCMSA).
Le projet « repose sur la mobilisation des outils de data science, en vue d’une modélisation économétrique des pratiques de ciblage des contrôles et de détection des comportements des cotisants ». Pour autant, « des améliorations notamment méthodologiques (correction de biais et processus d’estimation) restent à apporter pour mieux cerner les comportements frauduleux à l’œuvre ». Les résultats sont attendus fin 2019.
7 heures pour se former à la data science et apprendre à programmer en R
La DNLF organise par ailleurs régulièrement des partages d'expériences avec d'autres administrations (le service d'analyse de risque et de ciblage (SARC) de la douane, Pôle emploi, organismes sociaux ...) sur des points techniques (algorithmes, outils), ou plus généraux (pilotage, modalités de diffusion et appropriation des productions, problématiques RH).
Elle propose également un stage de sensibilisation et d'initiation à la Data science censé permettre, en 7 heures et sans pré-requis, de « distinguer les 4 volets de la Data science : la statistique (volet descriptif), l’exploration des données (volet explicatif ou data mining), l’extrapolation des données (volet prédictif ou scoring, ainsi que le volet prescriptif) ». L'objectif est aussi de « savoir programmer les principaux modèles d’estimation et de détection » sous R Studio, l'environnement de développement du langage de programmation statistique R.
Le plan national 2016 - 2018 de lutte contre la fraude aux finances publiques ayant fait de l’amélioration de l’effectivité du recouvrement un de ses axes prioritaires, la DNLF a décidé d'y consacrer l'un de ses deux rencontres, intitulée « La science des données : quelles utilisations pour le recouvrement et la prévention de la défaillance ? ».
Après un panorama international par l'OCDE de l'utilisation de la data science pour optimiser le recouvrement fiscal, les finances publiques belges et françaises y ont « présenté leurs travaux sur la création de modèles de datamining pour mieux anticiper le risque de non-recouvrement », le rapport ne précisant pas combien de pays procèdent eux aussi de la sorte.
Chômage :+ 10 % d'affaires « présumées frauduleuses »,+ 14% de chômeurs fraudeurs
La DNLF impute par ailleurs au « meilleur ciblage des contrôles grâce aux techniques de datamining » le fait qu'en 2018, et alors que le nombre de cas de fraudes enregistrés par la Caisse nationale d’allocations familiales (CNAF) a baissé (de 45 100 en 2017 à 44 897 en 2018), le préjudice financier identifié a dans le même temps augmenté (de 291,1 à 304,6 M€).
Rapportés aux 12,8 millions d’allocataires, les cas de fraudes représentent environ 0,35 % de la population, et un préjudice moyen subi par les CAF de 6 785 €, contre 6 455 en 2017. L'an passé, le directeur général de la CNAF tenait à préciser que « l’immense majorité des personnes qui se trompent ne sont pas des fraudeurs », que près de 2 millions d’allocataires avaient certes dû rembourser un trop-perçu suite à des erreurs involontaires, mais que seules 8,5 % des fraudes détectées reposaient sur des faux et usages de faux.
Du côté de l'assurance chômage, « le montant total du préjudice global (préjudice subi et évité) pour l’année 2018 s’établit à 206,35 M€ (dont 125,31 M€), soit une hausse de 11,5 % par rapport à l’année 2017 », chiffres obtenus grâce à « l’exploitation du big data (requêtes et outil de datamining), les travaux réalisés au niveau national sur la certification de l’identité (et) la fiabilité des données recueillies auprès des employeurs (obtention directe des attestations sous forme dématérialisée) ».
De plus, « l’évolution constante du montant des préjudices s’accompagne d’une augmentation de la volumétrie des affaires qualifiées "présumées frauduleuses" (+ 10%), ainsi que du nombre de demandeurs d’emploi mis en cause (+ 14%) ». Cette augmentation ne relèverait pas tant du datamining que du « fort investissement de Pôle emploi dans la lutte contre la fraude tant au niveau de la direction générale (offre de services métier) qu’au niveau des régions avec les directeurs maîtrise des risques et leur responsable fraude ».
À titre de comparaison, le total des montants de la fraude détectée en matière fiscale et sociale a atteint 5,73 milliards d'euros en 2018, dont seulement 715 millions au titre des prestations sociales, et 656 des cotisations sociales, contre 4,05 (soit 71%) en matière fiscale. La DNLF ne précise pas ce que le datamining aurait permis au fisc d'identifier.
Bercy généralise l’utilisation du datamining
-
Du datamining pour lutter contre les biais de sélection
-
7 heures pour se former à la data science et apprendre à programmer en R
-
Chômage :+ 10 % d'affaires « présumées frauduleuses »,+ 14% de chômeurs fraudeurs
Commentaires (17)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 07/01/2020 à 19h59
Le 07/01/2020 à 20h08
Le 07/01/2020 à 20h27
Le 07/01/2020 à 21h30
Faire n’importe quoi ou ne rien faire est le principe du droit fiscal. Jusque là personne n’est en retard technologique sur ce principe lorsque il est question d’argent.
C’est déjà bien de sensibiliser des agents à ces questions avec un support qui n’a pas l’air déconnant, et plus simple qu’avec des agents de Police. Les faits le démontre en France. " />
Le 07/01/2020 à 21h53
Former les agents a ces nouvelles technique pourquoi pas … maintenant il faudrait cibler le plus rentable. A mon avis c’est pas le chômeur " /> mais là on passe du coté politique de la chose " />
Le 07/01/2020 à 22h10
Le 07/01/2020 à 22h29
Le 08/01/2020 à 09h00
Bonne nouvelle ! On pourra trouver plus facilement ceux qui cumulent les postes et font des fausses déclarations à la HATVP !
Le 08/01/2020 à 09h34
Ah donc finit les astuces pour masquer les chiffres du chômage et du marché du travail " />
?
Enfin je sait pas hein, mais personnellement la première chose que j’ai apprise dans le cadre des statistiques c’est de réfléchir à ce que j’analyse et ce que cela signifie " />
Car bon, si les données de base ne sont pas bonne, peut importe les statistiques, cela restera la communication officielle de l’état du n’importe quoi.
Le 08/01/2020 à 09h47
Le 08/01/2020 à 09h49
Le 09/01/2020 à 07h36
There are three kinds of lies : lies, damned lies, and statistics
( Mark Twain )
" />
Le 10/01/2020 à 08h26
Donc ils ne ciblent absolument que les pauvres :
Chômeurs
Agriculteurs
Fraudes a la CNAF
C’est tellement pathétique et révélateur.
Le 07/01/2020 à 17h27
A mon humble avis, rien que pour un cours correct sur les stats qui n’entre pas trop dans les détails il faudrait au bas mot 2 semaines pour que les notions soient comprises. De là à les utiliser convenablement, il y a encore un cap à franchir.
Le 07/01/2020 à 17h43
C’est la simplification administrative. " />
Le 07/01/2020 à 18h35
7h pour apprendre à programmer et devenir data scientist ? Damned, si j’avais su, j’aurais surement pas fait autant d’études …
Sinon, je trouve la dernière phrase édifiante :
La DNLF ne précise pas ce que le datamining aurait permis au fisc d’identifier.
C’est un peu admettre sans détour qu’ils ne savent pas trop ce qu’ils font non ? Ou qu’ils savent que c’est inutile mais ne l’assument pas ?
Je me demande quand même quand est-ce qu’on attendra enfin le « pic des attentes exagérées » concernant l’utilisation du machine learning, du “Big Data”, etc.
Le 07/01/2020 à 18h39
donc après 4 ans de formation pour être un développer de base (sans rien connaitre au data science).
Et bas ils ont pas froids au yeux, pourquoi pas 7 minutes tant qu’on y est une vidéo youtube et hop on est data scientist