« Nous venons de créer une industrie de la confidentialité »

Du Big data au Small data

Le 07 février 2020 à 15h30

8 min

Internet

Alors qu'un rapport de l’Association internationale des professionnels de la vie privée (IAPP) répertorie plus de 250 startups espérant capitaliser sur le commerce des services de protection des données, un livre blanc du Future of Privacy Forum (FPF) détaille 10 risques à surveiller et 10 technologies émergentes à développer ces 10 prochaines années.

Avec l’adoption du California Consumer Privacy Act, entré en vigueur le 1er janvier, de nombreuses startups se lancent dans le business de la protection de la vie privée, rapporte NBC News.

Un rapport (PDF) de l’Association internationale des professionnels de la vie privée (IAPP), le bien nommé « Privacy Tech Vendor Report », en répertorie plus de 250, offrant des services de nettoyage de données personnelles ou d’accompagnement à la mise en conformité des entreprises, de management du consentement, de réponse aux incidents, de surveillance des activités, de désidentification ou de pseudonymisation.

« Nous venons de créer une industrie de la confidentialité », explique Alastair Mactaggart, responsable de Californians for Consumer Privacy, organisation qui a poussé l'État à adopter sa nouvelle loi sur la confidentialité, qui donne aux gens le droit de savoir ce que les entreprises savent à leur sujet, et le droit de bloquer la vente de ces informations à d'autres. Et ce, a fortiori parce que, dans la foulée du RGPD, de nombreuses entreprises ont décidé de l’appliquer au niveau national.

Le nombre de startups aurait quintuplé en trois ans, l’annuaire de l’IAPP étant passé de 44, début 2017 à 259 en octobre dernier. Il compte sa première « licorne », OneTrust, valorisée 1,3 milliard de dollars lors d’une levée de fonds l’été dernier. Son logiciel de « management de la vie privée » serait utilisé par 5 000 clients, dont 40 % des Fortune 500.

Du fait de la médiatisation croissante des fuites de données personnelles et des risques que le RGPD leur fait peser, de plus en plus d'entreprises passent d'une conformité manuelle à une automatisation opérationnelle, explique l’IAPP. Ce qui explique aussi pourquoi de plus en plus de fonds d’investissement et de capitaux risqueurs s’intéressent à ces startups, qui font aussi l’objet de plus en plus de fusions-acquisitions, en vue de la « consolidation du marché ».

Reste que la majeure partie ne vise pas tant à protéger la vie privée des internautes qu'à aider leurs clients à gérer et protéger les données des gens, en conformité avec les lois et règlements.

De l’« Internet des corps » aux données personnelles « de synthèse »

Le Future of Privacy Forum (FPF), de son côté, vient de publier un livre blanc consacré aux 10 risques et 10 technologies émergentes à surveiller ces 10 prochaines années. Sans surprise, la biométrie arrive en première place.

Non seulement pour ses systèmes de reconnaissance vocale et faciale, mais également comportementale, physiologique (de la peau aux battements de cœur), et même « potentiellement génétique ». Le FPF pointe du doigt les risques en matière de biais liés au sexe ou à la couleur de peau (les femmes, et les personnes de couleur, étant moins bien « reconnues » que les hommes blancs), mais également le fait que « le marché des gadgets, cosmétiques et vêtements de “camouflage biométrique” est en pleine expansion ».

Au-delà des systèmes de crédit social et de notation de réputation, basés notamment sur l’analyse de données collectées sur le web et les réseaux sociaux, le FPF souligne les risques que feront poser l’« Internet des corps » (« Internet of Bodies », ou IoB) qui, grâce aux interfaces hommes-machines, aux dispositifs biométriques, technologies médicales et à l’informatisation des données de santé, vont s’ajouter à l’Internet des objets (IoT).

Lentilles de contact connectées, pilules et pacemakers connectés : qui sera responsable en cas de piratage, de panne ou de fuite de données, se demande le FPF, a fortiori pour ce qui est des dispositifs directement connectés au cerveau ? Et comment encadrer le neuromarketing, l’analyse du mouvement des yeux ou des expressions du visage à des fins publicitaires et mercantiles ?

Le livre blanc évoque par ailleurs les risques posés par les systèmes de réalité virtuelle ou augmentée, les voitures semi-autonomes et les robots collaboratifs (« cobots »), le recours croissant aux systèmes de géolocalisation, y compris à l’intérieur des bâtiment, notamment avec le déploiement de la 5G, les « smart cities » (renommées « technopolice » par la Quadrature du Net) et leur dépendance à des technologies et algorithmes privés voire propriétaires.

L’informatique et la chimie quantiques pourraient, de leur côté, mettre à mal, mais également améliorer, les algorithmes de chiffrement des données, l’analyse prédictive et la recherche médicale.

Enfin, estime le FPF, les registres distribués de type blockchain ne « pourront probablement jamais être compatibles avec les cadres réglementaires ès-protection des données, à mesure qu’ils ne permettent pas d’exercer ses droits de rectification, à l’oubli et le contrôle des données personnelles », et devraient dès lors minimiser voire anonymiser celles qui y sont insérées.

Le « pétrole du XXIe siècle » est devenu « polluant »

Les méthodes cryptographiques dites de « Preuve à divulgation nulle de connaissance » (Zero Knowledge proof, ou ZKP, en anglais), qui permettent de minimiser les données voire d’éviter d’avoir à les divulguer tout en assurant une vérification de sécurité, sont la première des 10 technologies émergentes identifiées par le FPF.

Suivent le chiffrement homomorphe et le calcul multipartite sécurisé (Secure multi-party computation, ou SMPC), qui permettent d’effectuer des opérations sans avoir besoin de déchiffrer les données concernées, sans avoir besoin de passer par un tiers de confiance et sans risque de divulgation en cas de compromission de l’une des parties partageant le secret partagé.

La confidentialité différentielle, de son côté, permet d’anonymiser et désidentifier des données en y rajoutant du bruit statistique, de sorte de protéger la vie privée de ceux qui figurent dans une base de données. L'edge computing, ou « informatique en périphérie », consiste pour sa part à traiter les données à la périphérie d’un cloud, au plus près de la source des données, plutôt qu’au coeur du réseau, permettant elle aussi, de minimiser les données collectées et centralisées.

Cet objectif pourrait aussi être atteint grâce à l’apprentissage automatique (Machine learning) au niveau du terminal, qui pourrait profiter aux systèmes de gestion, vérification et certification de l’identité, sans avoir besoin de les partager.

Les sets de données synthétiques, qui répliquent les propriétés de données personnelles sans pour autant avoir besoin de stocker de données « réelles », et les techniques et approches dites de Small data, les algorithmes d’intelligence artificielle et d’apprentissage automatique pourraient, par ailleurs, éviter les problèmes posés par le Big Data.

chats, cats, IA, ML
Building powerful image classification models using very little data, par François Chollet

Plutôt que de prendre des photos de gens ou de voitures dans la rue, on pourrait par exemple utiliser celles d’ores et déjà disponibles dans des bases de données libres de droit. Ou modifier des photos de chats de sorte de pouvoir entraîner une IA à les reconnaître sans avoir besoin d’une base de données de millions de chats. Ou utiliser des réseaux adverses génératifs (generative adversarial network, GAN) pour générer des données de manière artificielle et créer des bases de données de synthèse, à l’image de ces visages et deepfakes créés par des IA.

À l'ère du Big data, les startupers voyaient les données personnelles comme « le pétrole du XXIe siècle ». En cette ère post révélations Snowden, Cambridge Analytica et RGPD, sur fond de montée en puissance des GAFAM et des data brokers, ces données personnelles sont devenues toxiques, voire polluantes.

Si l'écologie fait aujourd'hui consensus, c'est précisément parce que des pionniers se sont battus en ce sens, au XXe siècle, ce pourquoi la défense des libertés numériques est au 21e siècle ce que l’écologie fut au 20e. De même que nous devons apprendre à passer aux énergies propres, nous devons aussi apprendre à passer aux données propres, générant ou reposant sur une quantité limitée, la plus faible possible, de données personnelles.

Commentaires (18)

Jean_G Abonné

Le 07/02/2020 à 16h28

Je suis très circonspect (pour ne pas dire très pessimiste) sur l’avenir de notre vie privée, et je redoute quelques désillusions (mais je souhaite me tromper).

En ce qui concerne le chiffrement homomorphe, les quelques présentations auxquelles j’ai assisté m’ont à chaque fois déçu : on nous annonçait que ça marchait, mais en creusant on voyait que ça ne marchait que dans certains cas très particuliers, et qu’en pratique on n’était pas près d’en voir (pour par exemple trier une base de données chiffrées). Idem pour le calcul multipartites…

Côté IA, là j’en suis à espérer que ça ne devienne jamais de l’intelligence, et que ça ne soit jamais considéré comme tel, afin de ne pas donner plus de pouvoir à ces technologies qu’elles n’en ont vraiment. Et si on donne à un système des images de chat fabriqués par une IA, alors le “nouveau” système ne fera que ré-apprendre ce que l’autre aura produit, éventuellement en reproduisant les mêmes biais ! Ces systèmes sont infiniment plus efficaces que nous pour certaines tâches “automatisables”, mais ça ne reste que des machines, sauf si on leur donne nous-même le pouvoir…

Enfin, j’ai aussi vu passer des études promettant un marché de plusieurs centaines de milliards sur le commerce des données : toutes ces technologies vont-elle résister à une telle vague économique, si elle se produit effectivement ?

near667

Le 07/02/2020 à 16h35

Perso j’avoue que j’en ai marre de cliquer sur des panneaux, feux de signalisation, bus, vélos et autres passages piétons pour prouver que je ne suis pas un robot entraîner l’IA des futures voitures autonomes.

(ceci dit j’attends le moment où on me demandera d’identifier un groupe d’enfants, une personne âgée, une poussette, un handicapé " />) 

WereWindle

Le 07/02/2020 à 16h39

near667 a écrit :

Perso j’avoue que j’en ai marre de cliquer sur des panneaux, feux de signalisation, bus, vélos et autres passages piétons pour prouver que je ne suis pas un robot entraîner l’IA des futures voitures autonomes.

(ceci dit j’attends le moment où on me demandera d’identifier un groupe d’enfants, une personne âgée, une poussette, un handicapé " />)

“cliquez sur les parasites à éradiquer humains présents sur l’image”

" /> " />

spidermoon

Le 07/02/2020 à 16h59

Au début, ce genre de capcha était uniquement sur les sites non officiel de téléchargement. Maintenant, beaucoup de sites y ont recours. Le pire que j’ai eu c’est Orange Bank, j’ai du passer 6 captcha, des imagettes de bus us pleine de bruit numéro, des bouche d’incendie us, des feux de signalisation us, une vrai galère " />

WereWindle

Le 07/02/2020 à 19h26

j’avoue qu’au delà de 2 séries (et encore… les convulsions commencent quand tu vois que la 1ere suffisait pas) tu as un peu envie d’éviscérer le webdev (ou le gars qui a dit “faut x séries” mais le webdev est complice, un peu) avec les griffes d’un chaton que tu viendrais de malmener de manière létale…

taxalot

Le 08/02/2020 à 08h02

Je me méfie davantage de mon voisin ou de mon collègue que d’un groupe qui cherche à afficher une bonne pub sur un bon écran.  Pour moi, l’accent de la sécurisation doit être mis sur ce point.

Jarodd Abonné

Le 08/02/2020 à 08h13

250 startups… Ca me fait un peu flipper quand même. Combien sont sur ce secteur uniquement pour l’appât du gain, car c’est un nouveau marché très prometteur ? Et fourniront des produits mal conçus, qui ne protégeront pas bien les données personnelles…

M’est avis qu’on n’a pas fini d’entendre des scandales de fuites de données. “La fonctionnalité de chiffrement ? Ah oui elle est sur la roadmap de la v2, pour l’instant tout est en clair”

Guillaume_LG

Le 08/02/2020 à 08h33

Bientôt des startups pour protéger notre liberté.

Quiproquo Abonné

Le 08/02/2020 à 09h34

Si on en croit l’article, l’essentiel du marché est tourné vers le service aux entreprises (comprendre « comment contourner les législations sur la protection des données personnelles ? »), donc on peut craindre au contraire que les produits soient très bien conçus.

Soriatane Abonné

Le 08/02/2020 à 10h27

Quand je vois les ERP qu’on utilise en milieu pro, avec comme seul cloisonnement, les données financière, le RGPD a le mérite d’obliger les entreprises à se poser les bonnes questions.

vizir67 Abonné

Le 08/02/2020 à 13h20

(je ne sais plus sur QUEL site)

mais, j’avais DÛ passer 6 fois le ‘captcha’, pour être accepter !

à chaque fois : je NE voyais pas où était l’erreur ?

(et pourtant je me concentrais, et prenais 2 minutes) " />

XXC Abonné

Le 08/02/2020 à 14h24

WereWindle a écrit :

j’avoue qu’au delà de 2 séries (et encore… les convulsions commencent quand tu vois que la 1ere suffisait pas) tu as un peu envie d’éviscérer le webdev (ou le gars qui a dit “faut x séries” mais le webdev est complice, un peu) avec les griffes d’un chaton que tu viendrais de malmener de manière létale…

D’expérience, ces saloperies de captcha apparaisse surtout chez ceux qui bloque les mouchard de google.

Bref, il faut choisir entre la peste et le cholera." />

xlp Abonné

Le 08/02/2020 à 16h01

Avez-vous déjà mal répondu sciemment ? Vous verrez, ça passe très bien.

Je croyais qu’il y avait un xkcd sur le sujet genre “je réponds mal aux captcha exprès pour empêcher Skynet d’éradiquer l’espèce humaine”.

Bon, moi, c’est surtout parce que ça m’énerve d’être utilisé.

Rejoignez le mouvement… plus nous serons nombreux, moins le résultat sera utilisable " />

Kazer2.0 Abonné

Le 08/02/2020 à 23h25

Ça va encore, moi je dépasse les 10 captcha facilement avec mon niveau de protection.

Le truc arrive tellement pas à me classer qu’il switch plusieurs fois de type de captcha " />

Inodemus

Le 09/02/2020 à 02h13

Next Inpact a écrit :

un livre blanc du Future of Privacy Forum (FPF) détaille 10 risques à surveiller et 10 technologies émergentes à développer ces 10 prochaines années

Super le titre, il manque plus que “les exploiteurs de données détestent” et ce serait carton plein !

wanou Abonné

Le 09/02/2020 à 15h25

Jarodd a écrit :

250 startups… Ca me fait un peu flipper quand même. Combien sont sur ce secteur uniquement pour l’appât du gain, car c’est un nouveau marché très prometteur ? Et fourniront des produits mal conçus, qui ne protégeront pas bien les données personnelles…

M’est avis qu’on n’a pas fini d’entendre des scandales de fuites de données. “La fonctionnalité de chiffrement ? Ah oui elle est sur la roadmap de la v2, pour l’instant tout est en clair”

En même temps, s’il n’y avais pas de gain, ce seraient des associations et non des entreprises.

Et vu qu’il s’agit des US, ils auraient été traités de communistes. Avec un gain, pas de risque de ce côté là.

secouss

Le 10/02/2020 à 08h30

J’ai pas bien compris si ils “défendent” notre vie privée ou s’ils cherchent des solutions pour utiliser nos données en les anonymisant mieux (ce qui restera toujours virtuellement impossible)

deathscythe0666 Abonné

Le 12/02/2020 à 19h57

Tu peux faire les deux : anonymiser les données (donc supprimer les identifiants et tous les groupes de moins de 5 ou 10 utilisateurs identiques, puis supprimer les données sources individuelles et ne garder que les données agrégées), et les utiliser sous forme agrégées parce qu’il y a quand même un tas de services publics et de boites qui se fichent pas mal de savoir ce que fait M. Tartempion mais qui ont besoin d’avoir une idée assez précise de combien de personnes seront sur un axe routier donné à une heure donnée, dans une salle de spectacle, etc. (pour faire des prévisions et s’adapter quand il y a des événements - typiquement festifs - inhabituels, c’est extrêmement utile d’avoir ces informations)