50 % des algorithmes de vidéosurveillance testés par la SNCF jugés « insatisfaisants »

Des caméras « augmentées », vraiment ?

CC BY 2.0 Governo do Estado de São Paulo

10 des 19 algorithmes de vidéosurveillance algorithmique testés par la SNCF sont jugés « insatisfaisants ». Ils cumulent en effet « des taux de détection presque nuls et des dizaines de fausses alarmes ». La performance des systèmes d’IA employés via des drones ou dans des véhicules apparaît de son côté « incertaine ».

Jean-Marc Manach

Le 04 janvier à 11h19

13 min

IA et algorithmes

« Fortement concurrentiel, le marché mondial des caméras "augmentées" a atteint 11 milliards de dollars en 2020, porté par une croissance annuelle de 7 % », relevait l'an passé un rapport d’information sur les enjeux de l’utilisation d’images de sécurité dans le domaine public.

« Particulièrement investie dans le développement des caméras "augmentées" pour des raisons aussi bien commerciales que sécuritaires, la SNCF a également procédé à plusieurs dizaines d’expérimentations depuis 2017 », soulignaient les deux députés co-auteurs du rapport, Philippe Gosselin et Philippe Latombe.

Selon des documents obtenus par Mediapart, la SNCF a en effet testé entre 2017 et 2021, « avec l’accord de la Cnil », 19 logiciels de vidéosurveillance algorithmique en conditions réelles dans ses gares. Or, « sur ces 19 tests, 10 ont obtenu un niveau de performance jugé inférieur à 50 % par la SNCF » qui, sollicitée par Mediapart, « n’a pas voulu entrer dans le détail de leur efficacité ».

Le groupe ferroviaire a déployé un total de 70 000 caméras en France : 17 000 dans les gares et 45 000 embarquées dans les trains. Pour ces tests, elle a travaillé avec les plus grandes multinationales du secteur comme Thales et Atos, les PME françaises Aquilae et XXII ou les sociétés étrangères Anyvision et Briefcam.

Après avoir essuyé un refus de la part de la CNIL, parce qu'elle voulait utiliser la reconnaissance faciale, la SNCF s'était tournée vers le logiciel de vidéosurveillance algorithmique d’Anyvision (renommée en 2021 Oosto), car il exploite « d’autres caractéristiques non biométriques comme la démarche ou la tenue vestimentaire ».

Plusieurs gares ont été concernées « par au moins une de ces expérimentations », notamment la Gare du Nord, la Gare de l’Est, la Gare Saint-Lazare, la gare de Lyon-Part-Dieu ou celle de Marseille-Saint-Charles, précise Mediapart.

L'expérimentation, qualifiée de « particulièrement emblématique » par son ampleur, visait à suivre en temps réel une personne sur l’ensemble du réseau, selon différentes caractéristiques, dont les vêtements.

La SNCF avait expliqué à la CNIL que le logiciel « aide les opérateurs vidéo de la SNCF à retrouver rapidement une personne dans le temps et dans l’espace », notamment celles ayant abandonné un bagage, commis un délit « ou toute autre personne volontaire ». Le rapport d'information soulignait que « les résultats obtenus varient fortement selon l’objectif assigné à ces caméras "augmentées" » :

Mesure des performances des algorithmes testés par la SNCF

Des taux de détection presque nuls et des dizaines de fausses alarmes

Dans la nuit du 20 au 21 octobre 2022, la SNCF expérimenta à la Gare du Nord trois nouveaux algorithmes, censés identifier l’entrée à contresens d’un individu ou son franchissement d’une zone interdite, la seconde une personne se mettant au sol et la dernière le port d’une arme.

« Les deux solutions mises en œuvre ont présenté des résultats insatisfaisants sur l’ensemble des scénarios de test, avec des taux de détection presque nuls et des dizaines de fausses alarmes », relève cela dit la Direction des entreprises et partenariats de sécurité et des armes (DPSIS, devenue DEPSA, pour Direction des entreprises et partenariats de sécurité et des armes) du ministère de l’Intérieur.

Les tests avaient eu lieu « dans un environnement fermé avec trois caméras filmant la scène, dont une caméra d’angle », la DPSIS reconnaissant des résultats « contrastés, tant en raison de la faible maturité de certaines technologies que des conditions dans lesquelles plusieurs expérimentations ont été effectuées ».

Pour ce qui est du test sur l’entrée à contre-sens d’une personne et le franchissement de zone interdite, quatre solutions avaient été mises en œuvre. Les trois premières solutions « atteignent des performances satisfaisantes sur l’ensemble des scénarios de tests, présentant des taux de détection élevés et peu de fausses alarmes », mais la quatrième « n’a pas déclenché d’alertes lors de ces expérimentations, après avoir rencontré un problème technique ».

Les trois solutions de détection d’une personne au sol ont présenté « des résultats insatisfaisants sur l’ensemble des scénarios de test, avec des taux de détection presque nuls pour les deux premières et des dizaines de fausses alarmes pour la dernière, bien que celle-ci ait réussi à détecter avec succès 64 % des situations sur deux caméras ».

Les deux solutions de détection du port d’une arme ont présenté « des résultats insatisfaisants sur l’ensemble des scénarios de test, avec des taux de détection presque nuls et des dizaines de fausses alarmes », même si la seconde solution « a réussi à détecter avec succès 28 % des situations sur deux caméras ».

Dans les expérimentations de détection de personnes au sol et de détection d’armes à feu, précisait la DPSIS, « il semble qu’il y ait un écart important entre les données sur lesquelles les réseaux de neurones ont été entraînés et les données de la Gare du Nord sur lesquelles ces réseaux ont été testés ». Ce problème pourrait être résolu à l’avenir « en entraînant les réseaux de neurones des solutions sur des images de la Gare du Nord ».

Les mauvais résultats obtenus en Gare du Nord « ne mettent pas en cause la robustesse des modèles IA utilisés mais plutôt les données sur lesquelles les réseaux de neurones ont été entraînés », estime la DPSIS. Ils seraient dus à un problème appelé « décalage des données » (ou « data shifting »), un « problème courant dans les modèles de vision par ordinateur qui se produit lorsque la distribution conjointe des entrées et des sorties diffère entre les étapes d’apprentissage et de test ».

L'environnement d’un laboratoire n’est pas comparable à celui d’une gare

Auditionné par la mission d’information, le Pr. François Terrier, directeur du programme Intelligence artificielle de l’Institut CEA List, résumait cet enjeu de la façon suivante : « si la réalité dépasse la base de données, l’algorithme sera hors scope [champ] de manière systématique ».

Le rapport filait la métaphore sportive pour « utilement appréhender cette contrainte : les performances constatées au cours des entraînements ne préjugent en rien de celles réalisées lors des compétitions ».

« Si le comptage d’un flux de spectateurs ou le repérage d’un individu dans une zone interdite correspondent aujourd’hui à des technologies matures, la détection de personnes au sol, d’objets abandonnés, de mouvements de foule ou du port d’une arme présente une relative complexité, en dépit de l’ampleur des progrès technologiques récemment accomplis », relevaient les co-auteurs du rapport.

Ils soulignaient que ces « rétex » (pour retour d'expérience) « illustrent la nécessité de développer avec rigueur, et sur la durée, l’apprentissage des algorithmes », et soulignaient que la sensibilité des processus d’entraînement des systèmes d’intelligence artificielle « est par essence long, tortueux, itératif ».

La performance réelle des traitements algorithmiques dépend en effet « autant de la représentativité des données d’apprentissage sur lesquels ils ont été bâtis que des conditions dans lesquelles ils ont été testés ».

Et ce, d'autant que « l’environnement d’un laboratoire n’est pas comparable à celui d’une gare ou d’un aéroport, ce qui peut expliquer des différences majeures de résultats et conduire à s’interroger sur la fiabilité des dispositifs mis en œuvre ».

Après 22 minutes de surveillance, les opérateurs manquent jusqu’à 95 % de l’activité

Ils soulignaient par ailleurs que « l’usage de caméras "augmentées" suppose également la formation de tous les opérateurs vidéos à l’exploitation de ces outils ». D'autant que la multiplication de signaux d’attention détectant, par erreur, des situations n’ayant en effet pas lieu d’être « suspectes », peut représenter « une véritable difficulté pour les agents qui visualisent les écrans ».

Ils seraient en effet « confrontés à de potentielles fausses alertes à expertiser le plus rapidement possible ». Des obstacles qu'ils ne jugeaient pas « insurmontables », mais qui « ne doivent pas être méconnus ou minimisés – au risque de complexifier la prise de décision et ainsi de perturber l’exercice des missions des forces de sécurité sur le terrain, soit l’exact opposé du but recherché ».

La DPSIS faisait en effet état de recherches scientifiques ayant montré que « les opérateurs ne parviennent généralement pas à détecter les incidents dans une scène vidéo après 20 minutes de surveillance ». D’autres recherches ont en outre « révélé qu’après 12 minutes de surveillance vidéo continue, un opérateur est susceptible de manquer jusqu’à 45 % de l’activité à l’écran et qu’après 22 minutes de surveillance, il manque jusqu’à 95 % de l’activité ».

La DPSIS insistait enfin sur le fait que les logiciels « devraient être sécurisés by design, c’est-à-dire dès la conception, pour anticiper et ainsi minimiser les risques » de sorte que, concluaient les rapporteurs, la sécurisation des données issues de l’utilisation des logiciels de reconnaissance faciale « devrait faire l’objet d’une attention particulière et être contrôlée par la CNIL ».

L'opacité et les zones d'ombre nourrissent les fantasmes et postures dogmatiques

Les auditions conduites par la mission d’information faisaient état de plusieurs autres expériences menées au cours des dernières années à l’initiative de l’État, d’opérateurs de transports, et de municipalités, toutes effectuées « sous le contrôle de la CNIL ».

« S’il est par nature délicat de contre-expertiser les bilans réalisés, il conviendrait de définir en amont de l’expérimentation un cadre d’évaluation à la fois plus précis et standardisé, afin de garantir la pleine objectivité de ces "rétex" », soulignaient les rapporteurs.

Et ce, d'autant que « certaines expérimentations semblent avoir été effectuées dans des conditions peu satisfaisantes au regard des exigences d’information et de publicité auxquelles elles demeurent soumises ».

Auditionnée le 1^er février 2023 par la mission d’information, l’entreprise Thales avait ainsi présenté un « rétex » de l’expérimentation de caméras « augmentées » installées en 2020 - 2021 dans la ville de Reims.

Or, « cette expérimentation n’a semble-t-il fait l’objet d’aucune information de la part de la municipalité vis-à-vis des citoyens ni même du conseil municipal », comme l'avait révélé StreetPress.

- Thales teste à Reims des caméras de surveillance avec intelligence artificielle

Les rapporteurs regrettaient cette « opacité » et ces « zones d’ombre », contraires au RGPD, « que rien ne justifie en pratique » et qui « nuisent autant au bon déroulement des expérimentations qu’à leur évaluation sereine et objective ».

« Elles nourrissent ainsi les fantasmes et postures dogmatiques, en jetant le doute quant à leurs finalités réelles, à rebours des objectifs poursuivis par les promoteurs de ces projets » concluaient (en gras) les rapporteurs.

Ils recommandaient dès lors de « déterminer un cadre d’évaluation objectif, précis et standardisé des expérimentations de dispositifs de vidéoprotection "augmentée" et garantir le respect des obligations d’information du public ».

La performance des IA employés via des drones apparaît incertaine

À l'occasion d'un déplacement en Israël le 15 mars 2023, les rapporteurs expliquaient en outre avoir été « sensibilisés aux possibles contraintes opérationnelles entourant l’usage de caméras aéroportées "augmentées" ».

Ils avaient ainsi découvert qu' « en l’état de la technologie, la performance des systèmes d’intelligence artificielle employés via des drones ou dans des véhicules apparaît incertaine : distinguer le mouvement de la caméra de celui des foules, des individus ou des véhicules qu’elle filme peut se révéler complexe ».

Ce pourquoi ils recommandaient également de « mesurer l’efficacité des caméras "augmentées" selon le dispositif de captation d’images utilisé ». Plusieurs de leurs 41 recommandations portaient d'ailleurs elles aussi sur ces caméras « augmentées » :

- Recommandation n° 19 : Réaliser, sous l’égide de l’ANSSI, un audit de l’ensemble des systèmes de vidéoprotection susceptibles d’être couplés à des traitements algorithmiques dans le cadre de l’expérimentation autorisée par le projet de loi JOP 2024.

- Recommandation n° 20 : Veiller à garantir l’interopérabilité des systèmes de vidéoprotection et d’intelligence artificielle mis en œuvre dans le cadre de l’expérimentation.

- Recommandation n° 22 : Privilégier l’usage de technologies de vidéoprotection intelligente conçues et développées en France ou sur le territoire d’un État membre de l’Union européenne.

- Recommandation n° 36 : Consacrer la CNIL en tant que « chef de file » de la régulation des systèmes d’intelligence artificielle, d’une part en renforçant ses ressources humaines et techniques pour accomplir cette mission et d’autre part, en élargissant la composition de son collège aux présidents de l’ARCEP et de l’ARCOM.

- Recommandation n° 37 : Mettre en place une base de données centralisée à l’échelle nationale à des fins d’apprentissage des systèmes d’intelligence artificielle, sous la responsabilité d’un organisme ad hoc ou du Laboratoire national de métrologie et d’essais (LNE), suivant le modèle du NIST américain.

- Recommandation n° 40 : Soutenir, par le biais d’appels à projets, les entreprises françaises qui développent des solutions d’intelligence artificielle pouvant être couplées avec des images.

Commentaires (8)

Le 04/01/2024 à 13h08

« sur ces 19 tests, 10 ont obtenu un niveau de performance jugé inférieur à 50 % par la SNCF »

Tous ces efforts pour faire pire qu'un "pile ou face"! Attendons la suite, cela pourrait générer un coup de pression pouvant signifier une remise en piste du côté obscur de la farce : La biométrie...

tazvld Abonné

Le 04/01/2024 à 14h47

Tous ces efforts pour faire pire qu'un "pile ou face".

Les probabilités, c'est traite -> https://www.techno-science.net/glossaire-definition/Theoreme-de-Bayes-page-3.html

Ici, ce sont des mesures comme la précision, le rappel, le score F1... sur la détection d'un événement rare.

pamputt Abonné

Le 04/01/2024 à 14h11

Voici ce que je comprends : la SNCF a testé plusieurs solutions commerciales de « vidéosurveillance augmentée » et parmi toutes les solutions testées, la moitié sont complètement inutilisable.
Donc d'un autre côté, l'autre moitié l'est plus ou moins.
Il ne suffit que d'une solution satisfaisante pour que la SNCF continue sur sa lancée.

tazvld Abonné

Le 04/01/2024 à 14h39

Surtout, lorsque l'on regarde le graphe, a priori, il y a des solutions pour différents usages avec plus de 75% de précision (taux de vraies alertes parmi toutes les alertes) et plus de 75% de rappel (en gros moins de 25% des vrais cas passe entre les mailles). Il faut maintenant voir ce que ça donne, comparé à un être humain et un être humain avec cet outil pour véritable juger de l'utilité et de son cadre d'utilisation.

linconnu

Modifié le 05/01/2024 à 10h42

Quelque part c'est logique. Suffit d'acheter une caméra de surveillance soi même pour s'en rendre compte. Que ça soit les marques chinoises ou les marques plus connues on s'aperçoit vite que l'IA ne marche pas et on n'a pas d'autres choix que de désactiver les alarmes dans l'application pour ne pas être dérangé sans cesse pour rien.

vince2010091

Le 08/01/2024 à 12h01

tu compares une camera domestique à une caméra pro et des outils derrières ainsi que des usages qui ne sont pas comparable je pense

Cetera

Le 09/01/2024 à 13h53

C'est bien ce que j'ai toujours expliqué. C'est de la com' de la part de ceux qui survendent les capacités technologiques de la videoprotection/surveillance, soit pour des questions mercantiles, soit pour d'autres motifs moins avouables.

gloutch

Modifié le 11/01/2024 à 12h01

Pour avoir travaillé dans ce genre de système, il faut comprendre que c'est très difficile tout simplement à cause de la qualité des images.
L'éclairage, la résolution, l'utilisation d'objectifs grand angle (ce qui fait qu'on n'a qu'une poignée de pixels pour un objet), le manque de dynamique des capteurs CCD, les caméras qui sont dans des boites antieffraction avec une vitre qui n'est jamais nettoyée recouverte de poussière, le bruit et même parfois les parasites n'aident pas.
Je ne sais pas quel matériel est utilisé, mais pendant longtemps c'était des caméras analogiques avec un paquet de mètres de coax pour amener le signal dans des locaux techniques...