La surveillance Windows Recall permet en l’état un pillage des données sensibles
Buffet à volonté
Depuis sa présentation lors de l’annonce des PC Copilot+, la fonction Recall fait beaucoup parler d’elle. Désormais, on sait non seulement qu’elle ne nécessite pas obligatoirement une puce Snapdragon X pour fonctionner, mais que le potentiel de nuisance est élevé.
Le 04 juin à 09h43
9 min
IA et algorithmes
IA
Windows Recall est une fonction dont l’objectif est de permettre la récupération d’une information vue au cours des trois derniers mois écoulés au moins. Ponctionnant une partie du stockage, elle prend des captures d’écran à intervalles réguliers. Le mécanisme analyse le contenu de ces images (OCR) pour en extraire des informations.
En utilisant Recall, via une requête en langage naturel, on peut ainsi retrouver des éléments de conversation, une page visitée, un document sur lequel on travaillait et ainsi de suite. La réponse est fournie avec le contexte et la capture correspondante.
Quelques jours après l’annonce, Microsoft a publié une page résumant les attributs de Recall. On y trouvait notamment des éléments de réponse à plusieurs questions évidentes. C’était le cas de la vie privée, l’entreprise précisant que tout était calculé localement et qu’aucune capture n’était transférée à ses serveurs.
Cela ne changeait rien au danger inhérent d'un réservoir aussi important de données sensibles, comme nous l’indiquions alors. Et la situation est loin d’être aussi idyllique que Microsoft la présente, surtout pour une fonction activée par défaut (opt-out). Mais ce point pourrait changer.
Recall n’est pas forcément une spécificité des PC Copilot+
C’est l’une des questions que nous avions posées à Microsoft et sur laquelle nous n’avons pas eu de réponse : Recall peut-elle fonctionner sur d’autres configurations que les seuls PC Copilot+ et leurs puces Snapdragon X Plus ou Elite ?
Il semble que oui. Dès le 25 mai, Albacore (connu pour creuser les technologies de Microsoft) a indiqué sur X avoir réussi à faire fonctionner Recall sur une machine alimentée seulement par un SoC Snapdragon 7c Plus Gen3, qui n’intègre aucun NPU (pour Neural Process Unit, ou accélérateur d'intelligence artificielle). La machine intégrait également 3,4 Go de mémoire (GBook Go2), autant dire pas un foudre de guerre. Dans les réponses données, Albacore ajoutait que si certaines charges ont besoin d’accélération matérielle, le cœur de Recall s’en passait.
Il affirme aussi que la fonction sera disponible sur les machines x86, mais qu’il faudra peut-être attendre. Selon lui, les fabricants ont reçu les modèles, la plupart sous forme de paquets dédiés à l’architecture arm64. Ce qui ne prouve rien bien sûr, mais pose la question de l’étiquette « Copilot+ » et ce qu’elle suppose.
AMD et NVIDIA communiquent déjà
La question se pose d’autant plus que les annonces d’AMD et NVIDIA au Computex abordent frontalement la question. Le premier a annoncé de nouveaux processeurs contenant un NPU atteignant les 50 TOPS, largement prêts pour l’estampille selon AMD. Le second a annoncé que des PC portables RTX AI allaient arriver et qu’une mise à jour gratuite leur serait proposée pour les rendre officiellement compatibles avec la fameuse étiquette.
Reste que Microsoft n’a pas répondu à la question : que faut-il vraiment pour constituer un PC Copilot+ ? Car s’il ne s’agit que de fournir une certaine puissance pour assurer de bonnes performances dans les calculs locaux pour l’IA, les GPU dédiés ont ce qu’il faut depuis longtemps.
Vie privée, sécurité : un vaste recul
Si Recall fait partie d’un lot de fonctions propulsées par l’IA, c’est elle qui attire de loin l’attention. Devant un tel mécanisme capable de régurgiter toute information liée à une activité passée, les questions d’impact sur la vie privée ne manquent pas.
Kevin Beaumont, expert en cybersécurité, a publié à ce sujet un billet de blog il y a deux jours. Dans son analyse, il estime que Recall est une idée intéressante. Mais elle nécessite « une communication, une cybersécurité, une ingénierie et une mise en œuvre incroyablement soignées ». Rien de tout ceci n’aurait participé à la création de Recall, selon Beaumont.
Il revient tout particulièrement sur l’idée des informations chiffrées. Elles le sont, mais pas pour l’utilisateur. Une fois la session ouverte, les informations sont accessibles en clair. Aucun mécanisme ne protège apparemment l’accès. Les données sont également accessibles depuis d’autres comptes de la même machine, avec peu de moyens.
La porte ouverte à toutes les fenêtres
En clair, tout code malveillant pouvant s’installer au sein d’une session utilisateur sera en mesure d’accéder à ces informations. Non pas que les malwares manquaient d’opportunités à ce niveau, mais Recall pourrait leur mâcher le travail en réunissant toutes les données sensibles au même endroit.
Pour Kevin Beaumont, Microsoft semble avoir réalisé une fonction à tout faire, mais avec des « lacunes » si énormes que l’on « pourrait y faire passer un avion ». Selon lui, la question n’est pas de savoir si des pirates vont réussir à récupérer ces informations, mais quand.
Il affirme avoir créé un site web capable d’automatiser la récupération des informations, et d’autant plus facilement qu’elles sont en clair dans une simple base de données SQLite3, ce que pointait déjà Albacore le 27 mai. Cette base est stockée dans le dossier AppData, au sein d’un nouveau répertoire nommé CoreAIPlatform. Cette base de texte est légère, plusieurs jours de travail étant contenus dans un fichier de 90 ko environ. Le spécialiste ne rendra cependant son site public qu’après le 18 juin, jour de lancement officiel pour les PC Copilot+.
En outre, il n’y a aucune modération des informations captées par Recall, comme précisé par Microsoft elle-même. Si vous avez entré un mot de passe dans un champ en clair ou toute autre information, considérez qu’elle se trouve dans la base de données. Même chose pour les messages échangés dans toutes les messageries, chiffrées ou non, qu’ils soient éphémères ou pas. Ces données hautement sensibles sont présentes dans la base, dont l’accès ne nécessite aucun droit SYSTEM.
« Je n'exagère pas en disant qu'il s'agit de la décision la plus stupide en matière de cybersécurité depuis une décennie », écrivait Kevin Beaumont le 31 mai.
La sécurité, mais pas tout de suite
La réalisation de Recall est d’autant plus questionnable que Microsoft faisait circuler un mémo à ses équipes il y a un mois sur la sécurité. Comme le révélait The Verge, la consigne émanait de Satya Nadella en personne :
« Si vous devez choisir entre la sécurité et une autre priorité, la réponse est claire : privilégiez la sécurité. Dans certains cas, cela signifie qu'il faut donner la priorité à la sécurité plutôt qu'à d'autres choses, comme le lancement de nouvelles fonctionnalités ou la fourniture d'une assistance continue pour les systèmes existants. Il s'agit là d'un élément clé pour faire progresser la qualité et la capacité de notre plateforme à protéger les biens numériques de nos clients et à construire un monde plus sûr pour tous »
Cette manière d’aborder la sécurité « avec une rigueur à la fois technique et opérationnelle » ne semble pas avoir infusé dans la conception et la réalisation de Recall.
Un « acte d'automutilation »
Dans nos précédents articles, nous évoquions la possibilité que la fonction, dans son intégralité, soit quelque peu « overkill ». Comprendre que les moyens mis en place pour retrouver une information semblent démesurés, à l’image de tout ce qui touche l’IA le plus souvent. Kevin Beaumont va également dans ce sens, estimant que Recall peut convenir à des responsables plongés dans une telle quantité d’informations que la fonction aurait du sens.
« Beaucoup d'utilisateurs de Windows veulent simplement leur PC pour jouer, regarder du porno et vivre leur vie en tant qu'êtres humains qui font des erreurs... dont ils ne veulent pas toujours se souvenir. Et l'idée que d'autres personnes ayant accès à l'appareil puissent voir cette mémoire photographique est... effrayante, à un niveau profondément personnel », estime l’expert. Il va jusqu’à parler « d’acte d’automutilation », le potentiel de nuisance pour la sécurité, Copilot+, Windows et même Microsoft étant immense.
L’un des gros points noirs de Recall est également qu’il est activé automatiquement. La fonction est en opt-out. Il est seulement proposé à l’utilisateur, lors de la phase initiale de configuration de Windows, d’ouvrir immédiatement après les paramètres de Recall, qui permettent de le désactiver. On ne comprend pas bien pourquoi la question n’est pas posée comme de nombreux autres éléments dans l’assistant de configuration : une obligation de répondre Oui ou Non, sans réponse sélectionnée par défaut.
Si l’on en croit le journaliste Zac Bowden, des sources lui auraient indiqué qu’une intense discussion est en cours chez Microsoft à ce sujet. La question se poserait de modifier l’assistant (OOBE, pour Out of Box Experience) pour pouvoir choisir d’activer Recall ou non. L’assistant pouvant récupérer des mises à jour via internet, cette modification ne représente aucune difficulté technique. En revanche, elle en dirait long sur le processus de conception entourant Recall.
La surveillance Windows Recall permet en l’état un pillage des données sensibles
-
Recall n’est pas forcément une spécificité des PC Copilot+
-
AMD et NVIDIA communiquent déjà
-
Vie privée, sécurité : un vaste recul
-
La porte ouverte à toutes les fenêtres
-
La sécurité, mais pas tout de suite
-
Un « acte d’automutilation »
Commentaires (41)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 04/06/2024 à 10h01
Mais c'est vraiment affreux 😱
À chaque fois que je crois qu'on a touché le fond, on arrive à me surprendre en s'enfonçant encore plus… 😭
Le 04/06/2024 à 10h10
Le 04/06/2024 à 10h48
De plus, vu que la capture d'écran est faite, et qu'elle est déjà là pour être analysée/traité, l'OCR n'est-il pas plus simple et plus universelle ? de plus ça rajoute une information de "contexte" (est-ce un titre, une note...) pour le texte ainsi capturé.
Le 04/06/2024 à 16h07
Le 04/06/2024 à 17h20
Après, il n'a pas forcément le contexte d'affichage. Il sait qu'il y a du texte qui s'affiche quelque part, mais il n'a pas la sémantique derrière, à quoi ça correspond dans le document/affichage. J'imagine que pour un document PDF, ça doit être bien dégueulasse.
Et après, tu le dis : c'est à condition que ça utilise l'API de rendu de texte. Ca doit, j'imagine, être le cas pour un grand nombre de programmes, mais pas tout. Là en tête, j'imagine que les sous-titre ne passe pas souvent par cette API et plein de programmes ont leur propre rendu (tout ce qui est jeux-vidéo).
Modifié le 05/06/2024 à 01h13
Mais, mais, mais ... Qui voudrait d'un appareil avec un keylogger intégré ?
Déjà que je flippe souvent de savoir ce qu'on peut trouver dans mon .bash_history ...
Le 05/06/2024 à 13h20
Le 05/06/2024 à 02h40
Les PDFs, ça dépend, certains ont l'air assez propre, d'autres c'est pas la même chose ;)
Et bien sûr t'as aussi le PDF qui contient un gros JPEG.
Il faudrait aussi prendre la couleur en compte (un beau texte blanc sur fond blanc ça n'apporte pas beaucoup d'information à l'utilisateur.
Pour les sous-titres, j'ai dans l'idée qu'un certain nombre de formats n'utilisent pas des de texte mais des images, donc oui, ça ça ne passerait pas. Comme tout ce qui est "bitmap" (le JPEG dans le PDF).
En gros, je te donne une réponse sur comment l'OS voit passer plein de trucs.
Dans les contre-exemples, pour des imprimantes à étiquettes, j'ai mes propres polices format bitmap "fait main" (vieille technique de jeu vidéo des années 80?). Si j'affichais une preview à l'écran, pareil, l'OS n'y verrait rien.
Photoshop ou autre outil de dessin serait un bon exemple je pense. Je croyais que Firefox aussi, mais d'après ce que je trouve, non.
Le 05/06/2024 à 09h17
- dés windows XP (voir Me),le service d'indexation windows search, qui indexait un fichier sur deux à sa guise,
- cortana qui mélangeait tout (recherche internet, spam de msn.com, fichiers locaux, mails... sans pour autant trouver ton fichier local),
- Menu Démarrer, qui trouve toujours pas franchement ni les fichiers ni les mails, mais en plus t'ajoute de la pub dans les résultats.
la dernière fois qu'un truc marchait à peu près, c'était avec < windows 2000 (outlook 2003): pas d'index la recherche moulinait des heures, mais si tu attendais suffisamment longtemps tu trouvais ton fichier. (enfin pas le contenu des PDF / Word non plus)
Cette daube ne va toujours pas répondre à ce besoin élémentaire, va consommer une énergie folle à faire de l'OCR sur des captures d'écrans, et faire mouliner une IA.
Franchement MS devrait abandonner et utiliser des composants qui fonctionnement : sous linux le couple baloo/milou fonctionnement sans problème depuis bien 15 / 20ans (avant c'était nepomuk...), y'a parfois des pics de CPU ou d'IO quand tu viens de mettre à jour le temps d'indexer, mais ensuite tout fonctionne.
Le 04/06/2024 à 10h44
Next
Le 04/06/2024 à 10h55
Surtout ceux sur windows…
Modifié le 04/06/2024 à 12h00
Ces actus me font ma journée en général
Le 04/06/2024 à 10h24
Le 04/06/2024 à 10h49
Sur un PC personnel, c'est du traitement local. Reste le PC familial partagé, mais les données personnelles sont déjà assez largement présentes (et partagées).
Sur un PC d'entreprise, ça devient plus problématique, mais les CNIL ne peuvent juger qu'au cas par cas. Une entreprise devra faire attention à son utilisation parce qu'il est admis depuis longtemps qu'il est possible pour un employé d'utiliser le PC du boulot à des fins personnelles et que ça reste de la vie privée. Mais si l'accès aux données personnelles se fait dans les mêmes conditions qu'actuellement pour les mails ou données marquées personnelles sur le PC, c'est gérable, même s'il est plus difficile de distinguer a priori les données personnelles des autres.
Elles pourraient au plus faire des recommandations.
Le 04/06/2024 à 10h24
Le 04/06/2024 à 10h25
Le 04/06/2024 à 11h45
Tout les ordis de la maison de mes (vieux) parents sont sous linux tellement j'ai moins de noeux au cerveau de ce genre là à gérer.
Reste l'environnement pro qui a déjà été discuté ci-dessous. Les potentiels d'espionnage indus sont juste folles, les risques de dissémination (i.e. contamination de dataset d'entrainement d'IA par des données confidentielles) sont énormes.
Ah et puis le droit d'auteur aussi. Imagine un.e écrivain.e écrit tout son roman sous un traitement de texte quelconque, (sur 1 an ou 2) le draft est pillé par des screenshot, sert à entrainer une IA utilisée par un script kiddie pour écrire des romans à 3 francs-6 sous vendus sur Amazon.
L'enfer est pas seulement dans les détails, l'enfer est carrément dans l'idée générale du machin.
Le 04/06/2024 à 12h39
Modifié le 04/06/2024 à 14h38
Malheureusement je ne serai qu'un milliardième de la solution et le risque que tu évoques perdurera. La bonne façon de faire serait de contraindre Microsoft à la rendre opt-in.
Le 04/06/2024 à 15h53
Le 04/06/2024 à 17h38
Le 04/06/2024 à 10h25
Le 04/06/2024 à 11h17
C'est eux qui prétendent avoir passé du temps à ça ?
Le 04/06/2024 à 11h50
Le 04/06/2024 à 11h09
Utilisateur: ouh, ça consomme trop de stockage local!
MyCrosoftIsBeautiful: pas de plroblèmes, on va les stocker gratuitement pour vous dans Azure
Le 04/06/2024 à 11h14
Mais concernant les loustics, là, c'est assez probable.
Modifié le 04/06/2024 à 12h10
- surveillance généralisé, bien sûr
- mais aussi clonage numérique
- adoption en entreprise pour "suppléer" à la masse salariale puis la remplacer par des clones numériques
On a un potentiel "Black Mirror" absolument fantastique...
Le 04/06/2024 à 14h43
Le 04/06/2024 à 11h13
Côté pro, je suis bloqué sur Windows 10, mais pour combien de temps encore ? Ayant comme beaucoup de monde un usage hybride du PC (check des mails perso en journée, maj de mon planning Pro/Perso/Asso/Enfants, podcasts en travaillant, pauses/actus sur Twitter et Mastodon), cette fonctionnalité représente tout simplement une menace vitale.
Le 04/06/2024 à 11h15
Je viens de lire l'article Kevin Beaumont et le niveau d'amateurisme de la part de Microsoft est consternant... Par contre, je ne comprends pas deux choses :
1. Il ne parle que d'une base SQLite très légère qui contient le texte OCRisé. Les images sont-elles également stockées quelque part, au cas où ?
2. Il est question d'un chiffrement pour éviter à d'autres utilisateurs d'avoir accès aux données, mais qu'est-ce qui est chiffré exactement ? La base SQLite (avec une clé cachée quelque part dans le profil utilisateur) ? Les images ? Ou le "chiffrement" n'est qu'un ACL configuré pour empêcher un autre utilisateur d'accéder au dossier ?
Le 04/06/2024 à 11h27
Le 04/06/2024 à 11h33
L'informatique sert à trier, organiser des informations, jouer des algorithmes prédictifs, sortir des résultats précis, etc...
Aujourd'hui, on a tellement d'information, n'importe comment, qu'il faut un "truc" pour organiser à notre place. Sauf que ce "truc" n'est pas prédictif, et est obligé de faire de l'ocr du rendu graphique. C'est informatiquement débile de faire ça. Si on en arrive là, je me dis qu'on a atteint un point de non-maîtrise assez affolant.
Le 04/06/2024 à 13h32
Donc quand tu lis une actu sur Google Discover qui comporte un bloc d'intégration X qui reprend une vidéo issue de TikTok, faut sortir toute la puissance d'un NPU pour retrouver la vidéo parce que ton cerveau il sait plus trop où il a vu l'info.
Mais en plus y'a pas que ça, même Microsoft dans l'ergonomie sa suite Office permet d'épingler des fichiers sur l'icône de la barre des tâches (clic droit), pratique ! Sauf que sont pas les mêmes fichiers que le "Épinglé" qui apparaît quand tu fais Fichier > Ouvrir dans la même application... Et là oui, ça illustre qu'on a complètement perdu la maîtrise de ce qu'on lance en prod, puis on s'en sert de base pour développer The Next Big Thing, qu'on maîtrise encore moins.
Le 04/06/2024 à 13h02
Si quelqu'un passe par là et à de bonnes ressources...
Le 04/06/2024 à 13h45
GitHub
Modifié le 05/06/2024 à 13h57
De mon coté, j'hésite entre :
● Récolter un MAX de data hyper précises pour de la pub ou pour entraîner des IAs, quitte à introduire ce rapatriement plus tard une fois que la fonctionnalité sera plus largement adoptée et surtout acceptée
● La course à l'échalote avec les autres Big Tech pour avoir une image plus tech que les autres (auprès des des clients et/ou du marché) en incorporant toujours plus d'IA, sans même se demander si les gens en veulent ou s'ils l'utiliseront
Modifié le 04/06/2024 à 14h32
1) Cette phrase sous-entend que Microsoft devrait encore être composé de personnes compétentes. Ce n'est plus le cas depuis facilement Windows 8 et c'est pourquoi le niveau de sécurité actuel pour Recall a été jugé satisfaisant pour être diffusé.
2) Politique pro-sécurité ou non, la date pour révéler les CoPilot+ PC approchait et il était trop tard pour faire mieux. Il y aura peut-être des updates...
Il faut surfer sur la vague de l'IA, peut-être à n'importe quel prix. Manque de compétence dans un domaine nouveau, ou de temps... Mon choix porte sur 1).
Modifié le 04/06/2024 à 15h01
C'est exactement les mêmes motivations qui ont amené les sociétés emettrices de cartes de crédit à nous sortir des cartes sans contact sans aucune sécurisation de la communication.. Il y avait plein de pognon à se faire et il ne fallait surtout pas se laisser doubler par Samsung qui intégrait des puces de paiement dans ses téléphones asiatiques, ou par Google Pay.
Le 04/06/2024 à 15h06
Même si ça devenait désactivable à l'install, ça ne changerait rien. Etre désactivable veut aussi dire que ça pourrait être réactivé à n'importe quel moment sans qu'on s'en rende compte.
Et pour le boulot, je vais déjà sensibiliser l'équipe infra et micro sur ça. Vu la quantité de systèmes différents qu'on administre, onpremise ou cloud, ça va leur faire l'effet d'une douche froide
Le 10/06/2024 à 22h15
Modifié le 10/06/2024 à 22h50