Le webscraping, ou récupération de données sur le web, est une technique automatisée qui consiste à extraire des informations à partir du contenu de sites web. Cela se fait en utilisant des logiciels ou des scripts pour collecter des données à partir des pages web, généralement dans le but d'analyser ces données, de les stocker ou de les utiliser à d'autres fins.
Le webscraping peut être utilisé pour extraire une variété d'informations, telles que des données de prix, des avis de produits, des actualités, des données météorologiques… Mais également dans le but de faire de la prospection commerciale ainsi que pour inférer ou reconstituer des données (un exemple au hasard : Boursorama). Et dans ce domaine, il est facile de friser la légalité (ou l'illégalité) sans jamais l’atteindre.
Si dans le cas de Boursorama les clients étaient incités à donner leur identifiant et mot de passe, la banque en ligne devait ensuite récupérer les informations directement depuis le site des impôts, il n'y a pas a priori d'API disponible.
Prospection personnelle ou professionnelle
Partons d’une anecdote personnelle. J’ai commencé à recevoir des messages à caractère professionnel sur une adresse non professionnelle m’appartenant aussi. Rien de très surprenant a priori, mais il y avait malgré tout un fait curieux : cela se répétait régulièrement. Il y avait donc quelque chose qui associait mon activité professionnelle à un mail sans lien avec celle-ci. Premier réflexe : vérifier s’il s’agissait d’un pompage éhonté et mal ficelé des données personnelles dont il me fallait trouver la provenance, et demander a minima la correction ou au mieux la suppression.
J’ai interrogé plusieurs émetteurs de ces mails en brandissant la menace du couperet des 4 % du chiffre d'affaires mondial, et tous m’ont juré mordicus avoir récupéré cette adresse en toute légalité et que c’était celle que j’utilisais comme adresse de contact professionnel. Je leur répondais que c’était faux et qu’un simple coup d’œil aurait suffi à constater que le nom de domaine associé n’était pas le bon. La structure des adresses mails pro étant souvent d’une simplicité édifiante (genre nom + prénom + nom de domaine de la boîte). Je n’ai guère insisté les premières fois, mais la répétition de ces envois me fit comprendre qu’il fallait y mettre de l’ordre avant que cela ne dégénère.
Démarrons notre (petite) enquête. Mes interlocuteurs m’ont affirmé qu’il s’agissait de mon adresse de contact sur LinkedIn. Sauf que oui, mais non : après vérification, j’utilise bien la bonne adresse professionnelle sur ce réseau. Je ne suis pas encore fou : j’ai bien renseigné l’adresse correctement et je n’ai jamais indiqué l’adresse non professionnelle.
Pas de chance : mon adresse pro est vérifiée sur LinkedIn et c’est la bonne !
Première hypothèse et première tâche : l’adresse aurait été trouvée via mon profil, et l’objectif sera donc de retrouver toutes les adresses utilisées sur LinkedIn. Si le paramétrage reste plus simple que celui de Facebook, il faut quand même chercher.
Sur le profil ? Rien. Respect du RGPD oblige (je suppose), il n’est pas possible d’accéder directement à votre adresse mail depuis votre page de profil. On ne trouve que les liens des sites web que vous voulez bien partager. Or aucun ne correspond avec l’adresse mail utilisée par les prospecteurs.
On peut vérifier sur ces deux écrans l'adresse mail. Pas de trace de la mauvaise adresse.
Encore une fois : affichées ou non, les adresses mails renseignées sont correctes et aucune trace de la « mauvaise ». Note : je floute les données, bien qu’elles soient publiques : ceux qui voudront les voir devront faire l’effort de regarder par eux-mêmes.
Un coup d’œil aux archives
Plutôt respectueux du RGPD, LinkedIn vous offre la possibilité de charger toutes les données vous concernant d’un simple clic, en allant dans « Préférences et Confidentialité » puis « Confidentialité des données ».
Demandez « Obtenez une copie de vos données », choisissez ce que vous voulez (la totalité, par exemple). Ça tombe bien, je veux tout. Il est précisé que cela peut prendre un certain temps, mais dans mon cas nous sommes restés bien en dessous des 24 heures annoncées, les premières données arrivant au bout d’une heure, et le reste quelques heures plus tard.
Au final, on a bien tout dans un format texte, mais aucune trace de l’adresse non professionnelle. Il y a plein d'autres choses intéressantes, mais rien de surprenant. Pour ceux que cela intéresse, vous pouvez par exemple voir le poste actuel de toutes vos relations, en parcourant le fichier Connections.csv mais sans aucune adresse mail, pas question de vous faire une liste de diffusion gratuite !
En quête de statut
Cette « mauvaise » adresse mail n’est toutefois pas tombée du ciel : elle correspond à une activité bien précise, et je me rappelle l’avoir ajoutée brièvement puis enlevée de mon profil. Nous avons donc une autre piste : une adresse mail ayant existé à un moment sur LinkedIn, mais ayant été effacée depuis. Une extraction aurait-elle été faite pile au moment où elle était présente ? Ou y a-t-il une autre explication ?
Nous avons demandé au réseau s’il était possible qu’il existe des enregistrements archivés ou dans un statut de type « archivé » et non présent dans cette extraction. Leur réponse est formelle : non.
Il faut alors creuser du côté des émetteurs des mails et, en questionnant à nouveau un de mes interlocuteurs, j’apprends l’information essentielle que j’attendais : pour retrouver mon adresse, l'un d'entre eux a utilisé un plug-in, édité par skrapp.io. Un coup d’œil sur le site et tout s’éclaire : « Easily find professional email addresses » (« trouvez facilement une adresse mail professionnelle »).
Trouvez une adresse, oui, mais pour la précision (“accuracy”) il y a de quoi redire...
Contact est pris avec l’éditeur du plugin pour savoir comment sont gérées les informations issues de LinkedIn (réponse promise en 1 heure). Je reçois rapidement un mail, en effet, me demandant de noter le support (« satisfait » ou « non satisfait »). Non, je n’ai pas supprimé un paragraphe de cet article par erreur : zéro réponse. Je vérifie sur le site : ticket fermé, aucun commentaire. Logiquement, je clique sur « Bad, I’m unsatisfied ». Je réessaye, je reformule, même résultat. Pas très causant, l’éditeur...
Grattons tant qu’on peut
Nous ne pouvons que conjecturer le fonctionnement de ce plugin d’après nos observations. Il semble qu’il fasse du scraping sur LinkedIn, et qu’il propose une « probabilité » pour les différentes combinaisons possibles qu’il retrouve pour reconstituer l’adresse mail à partir du nom, prénom, nom de domaine, agrémenté des caractères point, souligné, etc.
Or sur ma page LinkedIn, il y a le logo de mon employeur, mais aussi celui de mon école d’ingénieur (où j’ai encore un compte, ou plutôt un alias redirigeant vers une adresse personnelle). Et dans mon cas, l’adresse mail mise en avant par le plugin est valide, mais elle pointe sur cette adresse scolaire et non l’adresse professionnelle officielle. Vous vous en doutez, il est moins cher de procéder ainsi que de payer une licence à LinkedIn pour avoir la possibilité de contacter un membre du réseau.
Est-ce légal ?
Il y a deux aspects à examiner pour un tel traitement : est-ce que cela respecte la législation, notamment le RGPD, et est-ce que cela respecte les conditions d’utilisation de LinkedIn ?
Côté LinkedIn, c’est simple : cela contrevient à leurs conditions d’utilisation, et cela nous a été confirmé par l’assistance utilisateur. Donc skrapp.io n’a pas le droit de parcourir les pages de LinkedIn pour en tirer de l’information.
Côté RGPD, le règlement est clair, mais l’application est plus complexe. Nous avons pu échanger avec la CNIL, et voici les principaux éléments :
« La reconstitution de l’adresse électronique d’une personne physique à partir de ses nom, prénom et de son affiliation à un organisme par un logiciel dédié est effectivement une opération de traitement de données personnelles au sens du RGPD. Cela est vrai indépendamment du caractère professionnel de cette adresse ou de la durée de traitement de ces données. »
Il s’agit bien d’un traitement de données personnelles, nous sommes donc fondés pour demander des explications (droit de consultation, de modification, ou de retrait). Mais la difficulté est de qualifier le responsable de traitement, et la CNIL n’a pas (pour l’instant) eu à statuer sur un tel cas :
« Pour savoir s’il est possible d’exercer ses droits directement auprès de l’éditeur du plugin, il faut donc déterminer si ce dernier agit en tant que responsable de son traitement. À noter que s’il n’agit qu’en tant que fournisseur d’une solution (sans traiter lui-même de données), […] il conviendra d’exercer ses droits auprès de chaque organisme utilisant le logiciel. »
« […] la CNIL n’ayant pas, à ce jour, eu l’occasion de procéder à une analyse de ce dispositif en particulier, elle ne saurait ni se prononcer sur l’applicabilité du RGPD ni sur la qualification de l’éditeur en tant que responsable du traitement. »
Pas de jurisprudence en la matière, donc. Cela nous met dans une situation paradoxale : nos droits seraient à exercer auprès des utilisateurs du plugin (ceux qui l’utilisent pour retrouver des adresses mails) alors que c’est l’éditeur du plugin qui enfreint les conditions d’utilisation de LinkedIn. Sachant que skrapp.io ne semble stocker aucune information, notre droit d’opposition devra donc être demandé à tous les utilisateurs du plugin ! Pas pratique.
À propos de la prospection commerciale
Il faut rappeler que la prospection commerciale professionnelle bénéficie d’un régime plus souple que la prospection simple, mais qu’elle reste encadrée, comme la CNIL l’expose clairement ici : la prospection commerciale par courrier électronique.
Pour les pros, la CNIL nous redit :
« Il est possible de se passer de consentement pour de tels traitements, [mais] certaines conditions doivent pour cela être remplies. Le responsable du traitement doit en particulier s’assurer du caractère professionnel de la prospection. »
Notamment, le mail doit porter sur l’activité professionnelle visée, ne doit pas être disproportionnée, et le destinataire doit pouvoir s’y opposer simplement et sans justification.
Et que fait LinkedIn ?
Hélas pas grand-chose. Il est de leur responsabilité d’entamer une action judiciaire pour le non-respect de ses CGU, mais leur service clientèle semble ne s’intéresser qu’aux membres du réseau. Or l’écriture d’un plugin de scraping ne nécessite pas obligatoirement d’être membre du réseau.
En conclusion, l’éditeur du plugin a encore de beaux jours devant lui, ainsi que tous ses congénères gratteurs, car ce procédé déporte la responsabilité (au sens RGPD) vers les utilisateurs. Et tant que les sites web ne poursuivront pas juridiquement les scrapeurs, ce sont les utilisateurs finaux qui devront s’assurer que leur usage est légal, et de ce côté-là, bien peu de gens lisent les CGU avec précaution (à part nous) !
Le scraping en soi n'est pas interdit, mais d'une part il peut contrevenir aux CGU des sites visés, d'autre part la responsabilité de l'utilisation des données incombe à l'utilisateur du plugin. Enfin le scraping utilisant des identifiants de connexion, encore très utilisé notamment dans le monde bancaire (voir l’exemple de Boursorama), continue à flirter avec la légalité.
Commentaires (52)
#1
Je me dis que j’aimerais bien avoir mon propre serveur de messagerie parfois. Une idée intéressante trouvée dans les commentaires était d’avoir autant d’alias différents que de service utilisé. Comme ça on peu voir d’ou ça fuite, et on change d’alias pour le service après. Et puis se faire ses propres blacklist IP c’est moins chiant que j’aurais cru ^^ chronophage quand même mais ça reste satisfaisant. (Sous réserve d’avoir les équipements pour faire ça bien)
Un truc identique pour la téléphonie aurait été pas mal non plus.
#2
J’ai mon domaine chez Migadu. Tu peux créer des alias wildcard (par ex pro.*@exemple.com).
Et après le point tu met par le nom du site sur lequel tu renseigne ton email.
Gandi le propose également, mais je suis parti au vu des changements tarifaires récent.
#2.1
J’utilise ce genre d’approche aussi.
Un peu pénible quand il faut envoyer un email depuis un de ces alias par contre, il faut aller “créer” l’adresse en question avant de pouvoir l’utiliser.
#3
Avec Google/Gmail, par exemple, on peut créer un nombre illimité d’alias en ajoutant simplement “+quelquechose” avant l’arobase. Par exemple, si l’adresse “principale” est [email protected], on peut créer des alias de la manière suivante pour chaque service :
Bon, après, faut avoir envie d’utiliser Gmail, ça c’est une autre histoire… mais en tout cas c’est facile :)
#3.1
C’est ce que je fais avec mon @ gmail pour un certain nombre de site “non sensible”.
Ça marche plutôt bien, sauf avec certains sites qui considèrent le + comme invalide.
#3.2
Grace à des commentaries sur NExtInpact, j’ai decouvers que Infomaniak aussi, (que j’utilise).
Bien moins datavore (a mon avis?) que celui mentionné…
#3.6
Infomaniak permet de gérer l’alias (avec le “+”) ou bien directement mettre le site en username (avant le “@”), par exemple [email protected]. Il suffit ensuite de récupérer les e-mails reçus sur catchall@ car cette adresse attrape tout ce qui est envoyé sur ce domaine (comme son nom l’indique). Attention ça attrape aussi les spams :) (et aussi sur des usernames que vous n’avez même pas créé puisque par défaut toute adresse est valide)
La difficulté est qu’il faut changer l’expéditeur à chaque réponse, car si on ne fait pas gaffe, on répond avec “catchall”. À noter que leur nouvelle application mobile ne permet pas de modifier l’expéditeur d’une réponse. Thunderbird (en desktop) et FairEmail (en mobile) permettent cette édition. Ça permet de savoir qui a fait mumuse avec l’e-mail qu’on leur a donné.
Pour le perso aussi, ça fonctionne.
[email protected] + nom.prenom, mettre ou enlever le point : avec ces 4 exemples on doit bien avoir 99% des adresses des gens.
Ça a failli me coûter une arnaque au CPF d’ailleurs, jusqu’à que l’escroc me dise “je vous ai envoyé l’e-mail de validation sur ‘[email protected]’ : raté, je suis dans le 1% qui n’utilise pas ce genre d’adresse avec mon compte sur les sites .gouv.fr, c’est ce qui m’a mis la puce à l’oreille :) Mais ça doit fonctionner avec la plupart des gens. Bien pratique pour monter une arnaque sans avoir l’adresse de la personne (même pas besoin de scraper ici !).
#3.3
Le « problème » avec cette technique, c’est qu’on peut penser que les scrappeurs retirent le + et ce qui se trouve après.
Idem, si l’adresse fait partie d’une fuite de données, les hackers peuvent facilement retirer ce qui se trouve après le « + »
#3.5
Au vu des spams reçus, certains scrappeurs coupe après le ‘+’ (ils cherchent sans doute le @ et ce qu’il y a autour donc s’arrêtent en arrivant au ‘+’).
#3.4
C’est parfois bloqué par les sites (d’avoir un signe ‘+’), et des sites sont bien au courant et commencent aussi a “retirer” la partie avec le +. L’alias aléatoire semble être une bonne option
#4
ce n’est pas exactement identique à un alias, mais il est assez courant que tout ce qui est après un ‘+’ dans l’adresse e-mail soit ignorée (à dessein).
C’est notamment le cas chez gmail il me semble.
Par exemple, avec une adresse [email protected] (je suis sur qu’elle existe ….), [email protected] arrivera sur la même boite mail.
Ce n’est pas vraiment équivalent à un alias, étant donné qu’on ne peux pas supprimer cette adresse [email protected]. Mais ça peut permettre d’identifier la source de la fuite si on met un label différent pour chaque site, et ça permet de mettre des règles de filtrage assez simples pour envoyer certains courriels directement à la corbeille.
edit: ah, tu as été plus rapide que moi Sachifus :-)
#4.1
Plein d’idées sympa effectivement. L’avantage d’avoir un serveur de messagerie est de pouvoir aller encore plus loin. En cas de compromission de l’adresse de base (Dans le même contexte que dans l’article) on peu recréer sa boîte mail et rediriger les anciens alias encore valide. Avoir des noms qui n’ont rien à voir entre eux. Et puis l’accès aux logs.
J’aime bien tenter de traquer les spams au taf. DNS dump sur les IP qui envoie, on fait une corrélations avec les domaines aléatoires qui viennent des mêmes pools d’IP et hop. Ça provient “souvent” des pays du BRICS ou de paradis fiscaux. Et quand on travaille pour des entreprises qui sortent pas de la region, on a le luxe de pouvoir blacklister des pays entier ^^
Bon après j’avais commencé un truc du genre il y a des années comme beaucoup de monde je pense, avoir plusieurs adresses mail. J’ai du laposte, orange, outlook, gmail, aol, custom, … Un peu moins de 10 boîtes au total mais faut les gérer individuellement :/
Le principe d’un alias c’est pas de pouvoir mettre n’importe quoi dans le nom et que ça pointe sur la même boîte ?
#5
J’utilise mon propre nom de domaine et le compte email associé depuis plusieurs années afin de me débarrasser de ces risques.
L’astuce c’est d’utiliser des alias crées pour un but spécifique (genre [email protected], [email protected], [email protected], etc).
ça permet un bon tri des sujets (une adresse mail = un “sujet” = un répertoire dédié dans Thunderbird, eux même classé par niveau d’importance) et surtout de détecter rapidement celui qui ne suit pas les règles et revend votre email… Si ça arrive, je n’ai qu’a détruire l’alias et fin du spam.
Mais ça demande du temps, un peu d’argent (~10€/an) et surtout de l’organisation (à chaque fois que j’ouvre un vieux site, je regarde l’email et le met à jour avec une adresse perso).
J’ai commencé le mouvement après le piratage du PlayStation Networks en 2011 (où j’ai pris conscience du nombre de comptes impactés par l’unique email et password que j’utilisais alors ^^) et j’ai bien 80% des sites et organismes sur ce nouveau modèle aujourd’hui.
Associé avec une bonne gestion des mdp unique et sauvegardé en local (car j’utilise le container vaultwarden sur 2 raspberry pi,un en master, un en backup) qui stock l’email, le mot de passe unique et l’url, ça porte ces fruits. Le tout accessible uniquement via mon propre VPN installé sur mon router (open source: turris), on arrive à quelque chose de propre…
Mais quel investissement de temps pour être “libéré”. Par contre, aucun regret
#6
Le scraping de Linkedin est malheureusement courant.
Mon profil s’est plusieurs fois retrouvé sur des sites répertoriant des consultants indépendants (bloomco par exemple) alors que je ne m’y étais jamais inscrit…
Y a clairement un trou dans le RGPD…
#7
Contrôler la diffusion de ses adresses email, c’est très bien, mais ce n’est qu’une facette du cauchemar.
Pensez à jeter un œil à ce que votre smartphone siphonne.
Pour l’article, merci, mais plus vulgarisation par 1 exemple vécu que investigation.
Fouiner du côté de skrapp et recouper voire arriver à donner un coup de pied dans la fourmilière m’aurait bien plu.
#8
J’ai testé Infomaniak. Mais je ne vois pas comment utiliser les alias en expédition. Il semble que l’on ne puisse envoyer un email qu’avec l’adresse de la boîte, toute autre tentative renvoie un message d’erreur. Je ne me vois pas envoyer mes emails à partir de [email protected]
#8.1
Voir mon message au dessus :)
#9
Pour que les CGU aient une vraie valeur contractuelle, il est indispensable que les utilisateurs de votre site les aient acceptées. On ne peut pas rendre opposables les CGU si elles ne sont pas accessibles et qu’on n’a pas la preuve qu’ils les ont lues et acceptées. Donc il faudrait que skrapp.io les ait acceptées pour que LinkedIn puisse peut-être faire quelque chose.
#10
Le problème (la subtilité) est là : le scraping n’est pas interdit. C’est l’utilisateur du plugin qui est en faute quand il l’utilise (car cela contrevient aux CGU qu’il a acceptées, lui). Or la “victime” ne peut se retourner que contre l’utilisateur du plugin (si l’utilisateur contrevient au GRPD), pas l’éditeur du plugin. Or s’il a du succès, on peut se retrouver avec centaines d’utilisateurs du plugin à contacter, au lieu d’un seul point de contact (l’éditeur). Idem pour LinkedIn qui ne pourra agir que sur les utilisateurs (côté CGU). C’est tout le problème du scraping, et les outils sont nombreux (par ex https://chrome.google.com/webstore/search/scraping?hl=fr&_category=extensions).
Côté skrapp.io : zéro réponse.
#10.1
Ce que je comprends dans l’histoire c’est que l’affirmation “skrapp.io n’a pas le droit de parcourir les pages de LinkedIn pour en tirer de l’information” est erronée, puisque skrapp.io n’est pas un utilisateur de LinkedIn, puisqu’il n’a pas accepté les CGU.
#11
Il faut faire attention avec le scrapping, un consortium de journalistes internationaux (dont fait partie en France Le Monde) avait scrappé la base de données du Registre des Bénéficiaires Effectifs (RBE) du Luxembourg pour enquêter sur les “optimisations fiscales”.
Des fois l’illégalité permet de faire de vrais enquêtes journalistiques.
#12
Un jour en cherchant comment ne pas mettre son numéro de téléphone dans son compte leboncoin quand il le demande à la connexion, j’ai trouvé des résultats de recherche concernant le scraping des numéros de téléphone dessus et ça m’a conforté… ensuite j’ai trouvé une appli qui fait un numéro virtuel mais elle ne s’est pas lancée sur mon fairphone 3 /e/os à cause d’une erreur de captcha. Résultat je ne peux pas me loguer sur mon compte leboncoin car il demande d’ajouter un numéro.
#13
c’est beau…
#14
#14.1
Merci pour les précisions.
#15
Quelle action judiciaire ? Si on enfreint une CGU le contrat est rompu et c’est tout. Concrètement Linkedin ferme ton compte.
Sur le fond de l’article je comprends l’agacement, mais là aussi je ne comprends pas vraiment ni le titre ni le problème avec le plugin ou le scrapping en général : ça n’a rien d’illégal, c’est un simple outil au même titre qu’une souris qui permet de sélectionner du texte, qu’un clavier de copier / coller…
Ce qui est illégal c’est de faire des fichiers de données personnelles sans consentement, pas de copier / coller ces données.
#16
J’ai un compte mailo pour 12 € par an et je peux gérer des alias type [email protected]
#17
#18
Il y a aussi une autre possibilité : la fuite de données linkedin qui a eu lieu il y a quelques années. De mon côté je reçois des emails professionnels sur une ancienne adresse email qui apparaissait dans la fuite de 2021. Tu peux utiliser le site https://haveibeenpwned.com/ pour avoir plus d’infos sur là où traine ton email. Plus d’infos sur la fuite (qui a la base est du scrapping) : https://www.businessinsider.com/linkedin-data-scraped-500-million-users-for-sale-online-2021-4?r=US&IR=T
#19
De mon côté Thunderbird ne fonctionne pas. Je peux bien indiquer l’adresse d’expédition que je souhaite dans Thunderbird. Mais, à l’envoi, le serveur SMTP d’infomaniak interdit l’envoi tant que je n’indique pas catchall@mondomaine comme expéditeur (que j’utilise comme identifiant de connexion au serveur SMTP). Chez Gandi, je pouvais utiliser n’importe quelle adresse d’expédition, y compris d’autres domaines, sans que le serveur SMTP de Gandi me bloque.
Là, la seule solution serait d’utiliser infomaniak en réception et de trouver un autre service plus tolérant à l’expédition….
#19.1
Peut-être que catchall ne peut pas répondre directement, elle est assez particulière. Essaye en redirigeant tous les mails de catchall vers une autre adresse, que tu relèves, et tu pourras tester l’expéditeur.
Il n’y a pas de raison de ne pas pouvoir le faire, sinon le support devrait t’aider (il faut s’armer de patience, en ce moment ils mettent 10 jours à répondre, en lisant la moitié de la demande…).
#19.2
Il est possible de répondre ou rédiger un mail avec un alias Infomaniak depuis le webmail Infomaniak. Mais c’est un peu fastidieux.
Pour cela il faut au préalable se rendre dans le menu paramètres, adresses mail, signatures, et créer une nouvelle signature. Dans les paramètres avancées en bas de l’écran on peut sélectionner l’adresse d’envoi et l’adresse de réponse. De base c’est uniquement l’adresse du compte principal qui est proposée. En cliquant sur le bouton + on peut ajouter une adresse mail d’un alias pour ces champs (après une procédure de vérification par l’envoi d’un mail de validation sur ledit alias).
Ensuite, lors de la rédaction d’un mail, le champ “De :” propose une liste déroulante avec toutes les signatures créées.
#20
Intéressant comme article. C’est la plaie tout ça
Comme plusieurs ont dit il faut utiliser des alias pour se protéger un minimum et si possible aussi différentes adresses e-mail.
C’est un gros enjeu aujourd’hui, le respect et la sécurité de nos données. Dans mon cas j’ai choisi de commencer à m’intéresser au hacking éthique pour essayer d’améliorer la sécurité de nos données.
#21
Perso, j’ai entrepris il y a quelques mois “un site : un mail”
Comme indiqué par d’autres, les alias de type “+” sont connus et reconnus.
J’ai un abonnement Protonmail. J’y ai configuré un domaine custom.
Egalement, SimpleLogin étant accessible avec un compte Proton, hop j’ai configuré un autre domaine custom. (et catchall activé si besoin de donner une adresse rapidement)
Mes mails sont du type site.suffixeunique[at]customdomain.xx
J’ai fait le plus dur, j’ai changé une grosse partie des sites principaux que j’utilise avec un mail unique.
Et après, petit à petit, dès que reçois un mail sur mon adresse gmail, j’en profite pour changer. Ca demande un peu de taff, mais ça se fait bien !
Pas de gros problèmes rencontrés. Un site où j’étais inscrit obligeait une adresse Goggle & co. hop ça dégage. Un autre ne voulait pas son nom dans l’adresse mail (coucou Samsung)
Pas de problème avec ma banque, les organismes de santé, etc
Là j’ai un problème avec Patreon. Je ne reçois pas le mail de confirmation. J’ai écrit au support, à suivre.
Bref, tout ça pour dire que ça va me permettre de mieux filtrer, de mieux gérer les fuites.
#22
Ah mon sens c’est plus un outil qu’une arme : Comme un marteau ou un tournevis peut être utilisé pour tuer quelqu’un il faut fermer tous les Leroy Merlin de France ?
Perso j’ai codé ce genre d’outil quand je cherchais un nouveau téléphone avec certains critères précis : j’ai codé un scrapping de la page smartphone d’un site de téléphone, 2⁄3 regexp pour extraire les caracts des tel, et je me suis fait mon propre tableur avec tous les smartphones du site, j’ai ensuite trier-filtrer à ma guise pour trouver le modèle répondant à mes besoins. Bref ça n’a rien d’illégal, si j’avais exploité cette base commercialement peut-être.
Pour linkedin c’est pareil l’outil n’est pas illégal, d’ailleurs Microsoft vend ces données. Ces données collectées sont soit publiques, soit pseudo publiques (dans le “cercle d’amis” du réseau) l’outil de scrapping ne fait qu’automatiser ce qu’on peut faire à la main.
#22.1
A mon avis, l’analogie ne fonctionne pas ici : l’utilisation normale du marteau est de bricoler, ce qui est légal. L’utilisation normale (et le seul usage) du plugin oblige l’utilisateur a enfreindre les CGU de LinkedIn.
Les commentaires sont là pour ça ! D’ailleurs le jugement semble bien dire que le scraping est légal. Par contre, dans le cas mentionné, si on était en Europe, cela tomberait sous le coup du RGPD : même si le scraping reste légal, la collecte de données sans l’accord de l’utilisateur ne le serait probablement pas.
#22.2
Yes, l’affaire LinkedIn mais pas que celle là sont des véritables roman a rebondissement, preuve aussi que la frontière entre légal et illégal est très subjective encore… Merci encore pour l’article, c’est effectivement l’occasion d’en discuter et de poser des jalons. A titre pro. ça fait un moment qu’on essaye de savoir ce qui est legal ou pas dans les labo de recherche, au début il y avait du flou mais le rgpd nous couvre un peu mieux. Toutefois, et je crois que c’est une limite aussi, le rgpd ne s’intéresse qu’au données personnelles or le webscrapping va bien au delà…
#22.4
la frontière entre légal et illégal est très floue !
‘certains sites’ jouent la dessus, justement, est sont ‘borderlines’ !
#22.3
J’ai voulu installer le plugin pour analyser son fonctionnement mais impossible d’aller plus loin que la création du compte, ou alors j’ai loupé une étape. Cependant, il me semble que j’ai lu que le site du plugin envoyait périodiquement à l’utilisateur le résultat du scrapping. Si cela est confirmé, alors ça signifie que le plugin ne travaille pas sur la machine de l’utilisateur, mais que c’est le site lui-même qui effectue le scrapping pour le mettre à la disposition de l’utilisateur. Et c’est la mise à disposition qui poserait problème. J’ai bon ?
#23
Problème complexe la gestion des @mail…
Mon adresse mail principale est une msn.com, donc elle en a vu des sites… Et je suis donc sous outlook.
Limité à 10 alias, je crois, ont peut sélectionner ceux permettant de se connecter au compte.
J’ai donc 1 Alias me permettant de me connecter à mon compte, utiliser exclusivement pour ça.
Les 9 autre alias (dont le msn.com) ne peuvent pas servir de connexion à mon compte.
Au moins je n’expose pas mon compte outlook. Après le nombre d’alias est faible et permet pas une création par site.
Et j’avais fait des test, c’était insidieux, un alias sur un ou deux site, les spam commençaient souvent après plus d’un an, j’imagine pour réduire le l’identification du site qui a permis la fuite de donnée…
#24
Je suis étonné que l’article ne cite pas l’affaire linkedin aux usa (https://www.business-humanrights.org/fr/derni%C3%A8res-actualit%C3%A9s/usa-web-scraping-held-to-be-legal-in-lawsuit-brought-by-linkedin-over-privacy-concerns/). Le fait que le scrapping soit légal ou illégal est beaucoup plus complexe que çà il me semble, et fortement dépendant des lois en vigueur dans les différents pays.
De plus la valeur de CGU d’une société américaine (comme twitter ou d’autres) n’a pas forcément de valeur/correspondance en France (voir les condamnation existantes). Bref, au delà du fait de savoir si c’est éthique ou pas, la question de la légalité / illégalité doit être posé aussi en tenant compte de l’assymétrie qui existe sur des plateformes gratuites ou “les données sont le produit” ! Autrement dit, vampiriser par du webscraping une plateforme qui elle même vampirise / capitalise sur les données personnelles est-ce éthique ? Les GAFAM passe leur temps à se nourrir de données personnelles, avec des CGU souvent illégales et volontairement indigestes. La question du webscraping mériterait donc un traitement plus approfondi il me semble.
#25
Pour les alias, j’utilise Relay de firefox. 12€ par an. Alias illimité et domaine perso en xxx.mozmail.com.
Gestion au top sur firefox
#25.1
Y a pas la même chose avec Brave gratuitement?
#25.2
Aucune idée, je n’utilise pas brave
#25.3
Et je suis pas encore bien réveillé, c’est duckduckgo!
#25.4
Tu as aussi SimpleLogin (qui a été récemment racheté par Proton, et donc intégré dans l’abonnement), qui propose un guide pour de l’auto-hébergement (https://github.com/simple-login/app). Il est déjà assez complet, et continue de rajouter régulièrement des features.
#26
Au passage, merci pour cet article tres INtéressant, avec ce partage d’expérience !
#27
C’est justement le fond de ma remarque, je ne vois pas en quoi il est illégal d’enfreindre les CGU d’un site. Si j’enfreins les CGU de linkedin, je ne vois ce que je risquerai à part me faire supprimer mon compte par linkedin. Si je commets un délit en enfreignant les CGU de linkedin, ces CGU vont être utilisées par Microsoft pour se dédouaner de mon action (l’utilisateur n’a pas respecté les CGU, donc Microsoft n’y est pour rien), et si il y a un préjudice Microsoft pourrait se retourner contre moi.
Le scrapping n’est à mon sens pas du tout illégal, pas plus que la fonction enregistrer sous, ou imprimer du navigateur.
#28
Pas nécessairement, ça peut être un Web Worker sur ta machine (un script qui tourne dans ton navigateur sans nécessairement avoir un onglet ouvert sur le site). Par contre si le compte linkedin est stocké sur les serveurs du “plugin” et que le traitement est déroulé là-bas, là le site devient responsable de traitement et tombe sous le coup du RGPD.
Ça m’étonnerait que ce soit ce second scénario, car le serveur serait facilement détecté et bloqué par Microsoft.
#29
#30
Ouaip.
Ouaip.
Ouaip.
Pas spécialement complexe, et pas besoi nd’autre équiepement.
De prétendus professionnels derrière de gros sites Web filtrent ces adresses avec de risibles expressions régulières simplistes et la grossière inculture fait que ce sont les réelles connaisseurs qui se retrouvent empêchés.
Côté contre-attaque, au delà du blocage, des message abuse au fournisseur de service, à l’hébergeur, jusqu’à signalement au gestionnaire de noms de domaines ou propriétaire du bloc IP ainsi que signalement aux autorités permettent parfois d’arrêter l’hémorragie.
Si la majorité des abuse contactés ont réagi professionnellement, traces à l’appui, certains hébergeurs (dont un français), déjà bien connus pour leur piètre qualité de service, répondent de manière décevante.
La téléphonie a un historique centralisé/fermé.
Aujourd’hui encore les implémentations de téléphonie numérique dans les box sont opaques, et certains ayant tenté l’ingénierie inverse ont vu des menaces judiciaires leur arriver (Orange).
Au niveau filtrage, on pourrait espérer que les opérateurs ne laissent plus sortir des appels dont les informations d’émission ont été bricolées, mais cela est loin d’être la norme.
Tant au niveau émission que réception, le monde de la téléphonie n’a pas encore la modernité d’Internet des années 1980. Et pas sûr qu’une changement de paradigme y opère.
On se borne pour l’instant à avoir transformé un signal analogique en numérique et à faire transiter ça par le réseau Internet. Super.
#31
Mais du coup, cela limite la possibilité à :
Mon cas d’usage, c’est de m’inscrire à petitsiteinconnu.com avec une adresse [email protected].
Avec Infomaniak, je reçois ce genre de mail sans problème. Mais je veux également pouvoir échanger éventuellement des mails avec le support de ce site en envoyant mes mails depuis la même adresse
[email protected] sans devoir créer un alias.