Connexion
Abonnez-vous

Elsevier place un identifiant unique dans ses .pdf, soi-disant pour lutter contre les ransomwares

Elsevier place un identifiant unique dans ses .pdf, soi-disant pour lutter contre les ransomwares

Le 01 février 2022 à 09h50

Jonny Saunders, doctorant en neurosciences à l'Université de l'Oregon, a découvert que l'éditeur de publications scientifique Elsevier plaçait une empreinte numérique unique dans les méta-données de ses fichiers .pdf, et qu'elle différait à chaque téléchargement, ce qui lui permettrait de pouvoir identifier qui l'aurait par la suite partagé.

Interrogé par MotherBoard, un porte-parole d'Elsevier explique que « la prise d'empreintes digitales dans les fichiers PDF nous permet d'identifier les sources potentielles de menaces afin que nous puissions informer nos clients pour qu'ils agissent en conséquence. Cette approche est couramment utilisée dans l'industrie de l'édition universitaire. ».

« Lorsqu'on lui a demandé à quels risques il faisait référence, le porte-parole a envoyé une liste de liens vers des articles de presse sur les ransomwares », précise cela dit MotherBoard, qui ne comprend pas bien en quoi ces hashs uniques à chaque téléchargement permettraient de lutter contre les rançongiciels. 

Notre confrère rappelle cela dit que l'éditeur poursuit depuis longtemps les personnes qui « piratent » ou partagent ses articles universitaires payants. En 2015, Elsevier avait ainsi poursuivi SciHub, le « Pirate Bay de la Science », qui héberge des millions d'articles de revues, y compris ceux d'Elsevier. 

Le 01 février 2022 à 09h50

Commentaires (23)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar

En 2015, Elsevier avait ainsi poursuivi SciHub, le « Pirate Bay de la Science », qui héberge des millions d’articles de revues, y compris ceux d’Elsevier.


Par contre quand eux demandent de payer des milliers d’euros pour une publication d’un article en open-access, là c’est parfaitement éthique, bien sûr.

votre avatar

Je ne vois pas le rapport avec les ransomwares. En revanche, je vois bien comment ça va leur servir à identifier ceux qui alimentent les rediffusions gratuites. Le ransomware dans l’affaire, c’est Elsevier.

votre avatar

Apparemment ce n’est pas trop compliqué d’effacer ces métadata. J’imagine assez bien que les gens de scihub le feront systématiquement

votre avatar

En effet, aucun rapport logique avec les ransomware… qui se fichent du contenu d’un fichier et se contentent de chiffrer tous les fichiers portant une extension connue… Donc n’importe quel PDF qu’il ait ou non une empreinte.



Opération de com’ foireuse, ils n’assument même pas de dire publiquement la raison de cette empreinte.



Bof, c’est pas si grave, il suffira de prendre leur PDF et de le ré-imprimer en PDF pour supprimer toutes les métadonnées :mad2:

votre avatar

Pas forcément. A l’époque je m’étais un marqueurs sur les pages. Un guid couleur transparent en dehors de la zone d’impression. Réimprimer le doc ne l’enlevais pas.

votre avatar

La prise d’“empreintes digitales” ? Vraiment ?

votre avatar

Comme quoi on n’a pas avance, bien au contraire.



en.wikipedia.org Wikipedia

votre avatar

dit MotherBoard, qui ne comprend pas bien en quoi ces hashs uniques à chaque téléchargement permettraient de lutter contre les rançongiciel


Les service juridique d’Elsevier préviendront les gens qui sont victime d’un rançongiciel mais qui ne sont pas au courant (oui j’invente un concept)

votre avatar

Il serait intéressant que les contrats de la puissance publique avec Elsevier exigent l’interdiction de cette pratique.

votre avatar

Il font un concours avec Apple pour savoir qui aura fait la déclaration la plus faux-cul du jour?

votre avatar

Question pour les experts du RGPD. Ce “hash” fait dans le dos, c’est pas une sorte de tracking déguisé pour lequel l’utilisateur n’a pas consenti ? Si oui, serait-il envisageable pour les institutions de recherche de porter ceci au tribunal ?

votre avatar

Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.



Maintenant, il faut une base légale. La base légale, je pense qu’ils peuvent l’avoir : intérêt légitime (limiter le piratage). Mais la communication qu’ils font ne vont pas du tout en ce sens. Mais en cas de contrôle par la CNIL compétente, ce sera ce qui est inscrit dans le registre des traitements qui primera, et non les communications faites comme ça…



Attaquer cela en justice, je vois mal le chef d’accusation qui pourrait être retenu. Attaquer cela devant la CNIL, le traitement est justifiable donc bon…



Mais ce n’est qu’un avis personnel

votre avatar

Merci pour ta réponse.




fdorin a dit:


Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.


C’est justement ce point que je tique. Je télécharge une publi de chez eux, j’ai donc leur hash. Si je mets cette publi à disposition à Scihub, TBP ou autres, ils seront juste que ça vient de chez eux. C’est pas une nouvelle, puisque c’est leur boulot de mettre en forme la publi et de la diffuser. La seule chose qu’ils savent c’est que ce ne sont pas les auteurs qui l’ont fourni.
Mais avec ce système impossible de savoir d’où vient la “fuite”. Des US, de France, du Japon… Bref, en somme ça ne leur sert à rien.



D’où mon hypothèse que le hash doit être différents (à minima) pour localiser la fuite. ça peut se faire via les comptes universitaires. Et là, tu peux remonter à la fuite et commencer des procédures judiciaires dans le dit pays.

votre avatar

« la prise d’empreintes digitales dans les fichiers PDF nous permet d’identifier les sources potentielles de menaces afin que nous puissions informer nos clients pour qu’ils agissent en conséquence. Cette approche est couramment utilisée dans l’industrie de l’édition universitaire. ».


J’ai remarqué quelques erreurs de traduction. Voila la version corrigée:




« la prise d’empreintes digitales dans les fichiers PDF nous permet d’identifier les sources potentielles de copies illicites afin que nous puissions informer notre service juridique pour qu’ils engagent des poursuites. Cette approche est couramment utilisée dans l’industrie musicale et cinématographique. ».


votre avatar

A ceux qui à l’avenir demanderont “A quoi servent les DRM alors que l’on paye la copie privée?” : c’est pour lutter contre les ransomwares.

votre avatar

Je déteste ce gens passionnément…

votre avatar

tpeg5stan a dit:


Apparemment ce n’est pas trop compliqué d’effacer ces métadata. J’imagine assez bien que les gens de scihub le feront systématiquement


De la même manière qu’on serait tenté de supprimer les données EXIF des photos qu’on publie.

votre avatar

BlackLightning a dit:


Mais avec ce système impossible de savoir d’où vient la “fuite”. Des US, de France, du Japon… Bref, en somme ça ne leur sert à rien.


Justement, au niveau du téléchargement, il faut être identifié non ? Ils peuvent donc faire le lien entre la personne ou entité authentifiée et le hash. A noter que souvent, dans les universités et autres, c’est l’adresse IP de l’établissement qui est autorisée (donc pas besoin de s’authentifier).



A l’époque où j’étais en labo de recherche, c’était comme ça pour certaines revues : accès open bar depuis le réseau du labo, accès avec authentification en dehors.




D’où mon hypothèse que le hash doit être différents (à minima) pour localiser la fuite. ça peut se faire via les comptes universitaires. Et là, tu peux remonter à la fuite et commencer des procédures judiciaires dans le dit pays.


C’est justement ce que dit la news : le hash est différent à chaque téléchargement ;)

votre avatar

fdorin a dit:


Justement, au niveau du téléchargement, il faut être identifié non ? Ils peuvent donc faire le lien entre la personne ou entité authentifiée et le hash. A noter que souvent, dans les universités et autres, c’est l’adresse IP de l’établissement qui est autorisée (donc pas besoin de s’authentifier).



A l’époque où j’étais en labo de recherche, c’était comme ça pour certaines revues : accès open bar depuis le réseau du labo, accès avec authentification en dehors.


Pour ma part, c’était avec le compte universitaire depuis le site de la BU (qui devait agir comme un proxy je pense). Accessible de n’importe où dans le monde.




C’est justement ce que dit la news : le hash est différent à chaque téléchargement ;)


Donc possibilité de lier un hash à un téléchargement et, en fonction de la méthode d’authentification, l’utilisateur. C’est qui m’a amené à ma question du tracking de l’utilisateur (dans le cas d’une authentification via un compte univ.).

votre avatar

(quote:1927504:alex.d.)
Je ne vois pas le rapport avec les ransomwares. En revanche, je vois bien comment ça va leur servir à identifier ceux qui alimentent les rediffusions gratuites. Le ransomware dans l’affaire, c’est Elsevier.


Ben c’est plus ou moins ce que dis l’article : “Lorsqu’on lui a demandé à quels risques il faisait référence, le porte-parole a envoyé une liste de liens vers des articles de presse sur les ransomwares ” .
Ils ont dont simplement informé MotherBoard que leur business model officiel était le ransomware - que l’attaque soit juridique plutôt que technique n’y change rien.
Pour l’utilisateur c’est donc bien un risque d’utiliser leurs services.

votre avatar

la prise d’empreintes digitales dans les fichiers PDF


Sérieux il faut quand même relire google translate ou au moins comprendre ce qu’on écrit ! Il faut donc sortir un petit encrier et chercher les doigts du fichier PDF ?

votre avatar

fdorin a dit:


Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.


Bah c’est justement le contraire qu’explique le passage mal traduit :



“Fingerprinting in PDFs allows us to identify potential sources of threats so we can inform our customers for them to act upon. This approach is commonly used across the academic publishing industry.”




Le marquage des PDF permet d’identifier le client à l’origine du téléchargement qui doit alors enquéter / porter plainte.


L’identification individuelle est clairement faite, et je doute que les conditions d’utilisation autorisent le partage de compte ou les comptes génériques d’université.



J’ai déjà vu ça sur un ebook PDF de formation, la 3ème page d’information contenait le laïus habituel des copyrights et une phrase en gras, cet exemplaire unique a été acheté par “John DOE”. Ensuite chaque page contenait un filigrane “exemplaire de John DOE”

votre avatar

BlackLightning a dit:


Question pour les experts du RGPD. Ce “hash” fait dans le dos, c’est pas une sorte de tracking déguisé pour lequel l’utilisateur n’a pas consenti ? Si oui, serait-il envisageable pour les institutions de recherche de porter ceci au tribunal ?


En soit, ça va rien tracker, si tu n’uploades pas le PDF quelque part, ils n’en auront aucune trace et ne sauront pas si tu l’ouvres/manipule/imprime, voire partage. En revanche, si tu le mets à disposition à un endroit public, ils pourront que c’est celui qu’ils t’ont donné spécifiquement à toi et non pas à celui qui l’a téléchargé juste après toi.



C’est comme si Netflix mettait un watermark “BlackLightning” planqué sur les vidéos que tu regardes. Netflix sait déjà que t’as lancé la vidéo, ils n’ont pas besoin du code pour ça.
En revanche, le jour où sa dernière série leak sur un site de torrent, ils vont la récupérer et lire le watermark pour voir si c’est “BlackLightning” ou “H4ck3rs_team” et, a minima, résilier l’abonnement Netflix du coupable.



A partir du moment où c’est mentionné dans leurs CGV, je suis pas sûr que ce soit un problème sur le plan juridique.

Elsevier place un identifiant unique dans ses .pdf, soi-disant pour lutter contre les ransomwares

Fermer