Elsevier place un identifiant unique dans ses .pdf, soi-disant pour lutter contre les ransomwares

Le 01 février 2022 à 09h50

2 min

Internet

Jonny Saunders, doctorant en neurosciences à l'Université de l'Oregon, a découvert que l'éditeur de publications scientifique Elsevier plaçait une empreinte numérique unique dans les méta-données de ses fichiers .pdf, et qu'elle différait à chaque téléchargement, ce qui lui permettrait de pouvoir identifier qui l'aurait par la suite partagé.

Interrogé par MotherBoard, un porte-parole d'Elsevier explique que « la prise d'empreintes digitales dans les fichiers PDF nous permet d'identifier les sources potentielles de menaces afin que nous puissions informer nos clients pour qu'ils agissent en conséquence. Cette approche est couramment utilisée dans l'industrie de l'édition universitaire. ».

« Lorsqu'on lui a demandé à quels risques il faisait référence, le porte-parole a envoyé une liste de liens vers des articles de presse sur les ransomwares », précise cela dit MotherBoard, qui ne comprend pas bien en quoi ces hashs uniques à chaque téléchargement permettraient de lutter contre les rançongiciels.

Notre confrère rappelle cela dit que l'éditeur poursuit depuis longtemps les personnes qui « piratent » ou partagent ses articles universitaires payants. En 2015, Elsevier avait ainsi poursuivi SciHub, le « Pirate Bay de la Science », qui héberge des millions d'articles de revues, y compris ceux d'Elsevier.

Sébastien Gavois

Le 01 février 2022 à 09h50

Commentaires (23)

SomeDudeOnTheInternet Abonné

Le 01/02/2022 à 09h59

En 2015, Elsevier avait ainsi poursuivi SciHub, le « Pirate Bay de la Science », qui héberge des millions d’articles de revues, y compris ceux d’Elsevier.

Par contre quand eux demandent de payer des milliers d’euros pour une publication d’un article en open-access, là c’est parfaitement éthique, bien sûr.

alex.d. Abonné

Le 01/02/2022 à 10h10

Je ne vois pas le rapport avec les ransomwares. En revanche, je vois bien comment ça va leur servir à identifier ceux qui alimentent les rediffusions gratuites. Le ransomware dans l’affaire, c’est Elsevier.

tpeg5stan

Le 01/02/2022 à 10h14

Apparemment ce n’est pas trop compliqué d’effacer ces métadata. J’imagine assez bien que les gens de scihub le feront systématiquement

Nozalys Abonné

Le 01/02/2022 à 10h14

En effet, aucun rapport logique avec les ransomware… qui se fichent du contenu d’un fichier et se contentent de chiffrer tous les fichiers portant une extension connue… Donc n’importe quel PDF qu’il ait ou non une empreinte.

Opération de com’ foireuse, ils n’assument même pas de dire publiquement la raison de cette empreinte.

Bof, c’est pas si grave, il suffira de prendre leur PDF et de le ré-imprimer en PDF pour supprimer toutes les métadonnées

aserf

Le 05/02/2022 à 09h59

Pas forcément. A l’époque je m’étais un marqueurs sur les pages. Un guid couleur transparent en dehors de la zone d’impression. Réimprimer le doc ne l’enlevais pas.

Jarodd Abonné

Le 01/02/2022 à 10h47

La prise d’“empreintes digitales” ? Vraiment ?

ldesnogu

Le 01/02/2022 à 11h08

Comme quoi on n’a pas avance, bien au contraire.

Wikipedia

Dj Abonné

Le 01/02/2022 à 11h25

dit MotherBoard, qui ne comprend pas bien en quoi ces hashs uniques à chaque téléchargement permettraient de lutter contre les rançongiciel

Les service juridique d’Elsevier préviendront les gens qui sont victime d’un rançongiciel mais qui ne sont pas au courant (oui j’invente un concept)

Soriatane Abonné

Le 01/02/2022 à 11h50

Il serait intéressant que les contrats de la puissance publique avec Elsevier exigent l’interdiction de cette pratique.

loser

Le 01/02/2022 à 11h59

Il font un concours avec Apple pour savoir qui aura fait la déclaration la plus faux-cul du jour?

BlackLightning Abonné

Le 01/02/2022 à 12h35

Question pour les experts du RGPD. Ce “hash” fait dans le dos, c’est pas une sorte de tracking déguisé pour lequel l’utilisateur n’a pas consenti ? Si oui, serait-il envisageable pour les institutions de recherche de porter ceci au tribunal ?

fdorin Abonné

Le 01/02/2022 à 16h20

Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.

Maintenant, il faut une base légale. La base légale, je pense qu’ils peuvent l’avoir : intérêt légitime (limiter le piratage). Mais la communication qu’ils font ne vont pas du tout en ce sens. Mais en cas de contrôle par la CNIL compétente, ce sera ce qui est inscrit dans le registre des traitements qui primera, et non les communications faites comme ça…

Attaquer cela en justice, je vois mal le chef d’accusation qui pourrait être retenu. Attaquer cela devant la CNIL, le traitement est justifiable donc bon…

Mais ce n’est qu’un avis personnel

BlackLightning Abonné

Le 01/02/2022 à 16h27

Merci pour ta réponse.

fdorin a dit:

Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.

C’est justement ce point que je tique. Je télécharge une publi de chez eux, j’ai donc leur hash. Si je mets cette publi à disposition à Scihub, TBP ou autres, ils seront juste que ça vient de chez eux. C’est pas une nouvelle, puisque c’est leur boulot de mettre en forme la publi et de la diffuser. La seule chose qu’ils savent c’est que ce ne sont pas les auteurs qui l’ont fourni.
Mais avec ce système impossible de savoir d’où vient la “fuite”. Des US, de France, du Japon… Bref, en somme ça ne leur sert à rien.

D’où mon hypothèse que le hash doit être différents (à minima) pour localiser la fuite. ça peut se faire via les comptes universitaires. Et là, tu peux remonter à la fuite et commencer des procédures judiciaires dans le dit pays.

127.0.0.1

Le 01/02/2022 à 12h52

« la prise d’empreintes digitales dans les fichiers PDF nous permet d’identifier les sources potentielles de menaces afin que nous puissions informer nos clients pour qu’ils agissent en conséquence. Cette approche est couramment utilisée dans l’industrie de l’édition universitaire. ».

J’ai remarqué quelques erreurs de traduction. Voila la version corrigée:

« la prise d’empreintes digitales dans les fichiers PDF nous permet d’identifier les sources potentielles de copies illicites afin que nous puissions informer notre service juridique pour qu’ils engagent des poursuites. Cette approche est couramment utilisée dans l’industrie musicale et cinématographique. ».

Silences

Le 01/02/2022 à 13h00

A ceux qui à l’avenir demanderont “A quoi servent les DRM alors que l’on paye la copie privée?” : c’est pour lutter contre les ransomwares.

Ced-le-pingouin Abonné

Le 01/02/2022 à 13h24

Je déteste ce gens passionnément…

Zone démilitarisée

Le 01/02/2022 à 13h36

tpeg5stan a dit:

Apparemment ce n’est pas trop compliqué d’effacer ces métadata. J’imagine assez bien que les gens de scihub le feront systématiquement

De la même manière qu’on serait tenté de supprimer les données EXIF des photos qu’on publie.

fdorin Abonné

Le 01/02/2022 à 16h39

BlackLightning a dit:

Mais avec ce système impossible de savoir d’où vient la “fuite”. Des US, de France, du Japon… Bref, en somme ça ne leur sert à rien.

Justement, au niveau du téléchargement, il faut être identifié non ? Ils peuvent donc faire le lien entre la personne ou entité authentifiée et le hash. A noter que souvent, dans les universités et autres, c’est l’adresse IP de l’établissement qui est autorisée (donc pas besoin de s’authentifier).

A l’époque où j’étais en labo de recherche, c’était comme ça pour certaines revues : accès open bar depuis le réseau du labo, accès avec authentification en dehors.

D’où mon hypothèse que le hash doit être différents (à minima) pour localiser la fuite. ça peut se faire via les comptes universitaires. Et là, tu peux remonter à la fuite et commencer des procédures judiciaires dans le dit pays.

C’est justement ce que dit la news : le hash est différent à chaque téléchargement ;)

BlackLightning Abonné

Le 01/02/2022 à 16h45

fdorin a dit:

Justement, au niveau du téléchargement, il faut être identifié non ? Ils peuvent donc faire le lien entre la personne ou entité authentifiée et le hash. A noter que souvent, dans les universités et autres, c’est l’adresse IP de l’établissement qui est autorisée (donc pas besoin de s’authentifier).

A l’époque où j’étais en labo de recherche, c’était comme ça pour certaines revues : accès open bar depuis le réseau du labo, accès avec authentification en dehors.

Pour ma part, c’était avec le compte universitaire depuis le site de la BU (qui devait agir comme un proxy je pense). Accessible de n’importe où dans le monde.

C’est justement ce que dit la news : le hash est différent à chaque téléchargement ;)

Donc possibilité de lier un hash à un téléchargement et, en fonction de la méthode d’authentification, l’utilisateur. C’est qui m’a amené à ma question du tracking de l’utilisateur (dans le cas d’une authentification via un compte univ.).

Le 01/02/2022 à 22h10

(quote:1927504:alex.d.)
Je ne vois pas le rapport avec les ransomwares. En revanche, je vois bien comment ça va leur servir à identifier ceux qui alimentent les rediffusions gratuites. Le ransomware dans l’affaire, c’est Elsevier.

Ben c’est plus ou moins ce que dis l’article : “Lorsqu’on lui a demandé à quels risques il faisait référence, le porte-parole a envoyé une liste de liens vers des articles de presse sur les ransomwares ” .
Ils ont dont simplement informé MotherBoard que leur business model officiel était le ransomware - que l’attaque soit juridique plutôt que technique n’y change rien.
Pour l’utilisateur c’est donc bien un risque d’utiliser leurs services.

fofo9012 Abonné

Le 02/02/2022 à 07h28

la prise d’empreintes digitales dans les fichiers PDF

Sérieux il faut quand même relire google translate ou au moins comprendre ce qu’on écrit ! Il faut donc sortir un petit encrier et chercher les doigts du fichier PDF ?

fofo9012 Abonné

Le 02/02/2022 à 07h54

fdorin a dit:

Des éléments que je vois, c’est une donnée pseudonymisée. Je ne doute pas qu’Elsevier puisse lier un hash à l’utilisateur qui a procédé au téléchargement.

Bah c’est justement le contraire qu’explique le passage mal traduit :

“Fingerprinting in PDFs allows us to identify potential sources of threats so we can inform our customers for them to act upon. This approach is commonly used across the academic publishing industry.”

Le marquage des PDF permet d’identifier le client à l’origine du téléchargement qui doit alors enquéter / porter plainte.

L’identification individuelle est clairement faite, et je doute que les conditions d’utilisation autorisent le partage de compte ou les comptes génériques d’université.

J’ai déjà vu ça sur un ebook PDF de formation, la 3ème page d’information contenait le laïus habituel des copyrights et une phrase en gras, cet exemplaire unique a été acheté par “John DOE”. Ensuite chaque page contenait un filigrane “exemplaire de John DOE”

MisterDams Abonné

Le 03/02/2022 à 19h55

BlackLightning a dit:

Question pour les experts du RGPD. Ce “hash” fait dans le dos, c’est pas une sorte de tracking déguisé pour lequel l’utilisateur n’a pas consenti ? Si oui, serait-il envisageable pour les institutions de recherche de porter ceci au tribunal ?

En soit, ça va rien tracker, si tu n’uploades pas le PDF quelque part, ils n’en auront aucune trace et ne sauront pas si tu l’ouvres/manipule/imprime, voire partage. En revanche, si tu le mets à disposition à un endroit public, ils pourront que c’est celui qu’ils t’ont donné spécifiquement à toi et non pas à celui qui l’a téléchargé juste après toi.

C’est comme si Netflix mettait un watermark “BlackLightning” planqué sur les vidéos que tu regardes. Netflix sait déjà que t’as lancé la vidéo, ils n’ont pas besoin du code pour ça.
En revanche, le jour où sa dernière série leak sur un site de torrent, ils vont la récupérer et lire le watermark pour voir si c’est “BlackLightning” ou “H4ck3rs_team” et, a minima, résilier l’abonnement Netflix du coupable.

A partir du moment où c’est mentionné dans leurs CGV, je suis pas sûr que ce soit un problème sur le plan juridique.

Catégories

Nous Suivre

À propos

Elsevier place un identifiant unique dans ses .pdf, soi-disant pour lutter contre les ransomwares

Commentaires (23)