La complexité légale de la fouille automatique de textes et données

La complexité légale de la fouille automatique de textes et données

Toi, tu creuses...

Avatar de l'auteur

Martin Clavey

Publié dansSociété numérique

06/12/2022
5
La complexité légale de la fouille automatique de textes et données

La fouille automatique de textes et de données (ou text and data mining en anglais) est une technique qui permet beaucoup d'avancées scientifiques, mais elle se heurte aux conceptions des droits d'auteurs et voisins. Selon un article publié dans la revue Science, des lois obsolètes entravent la recherche.

Sean Flynn et 17 autres chercheurs plaident pour une harmonisation d'ampleur mondiale des lois sur le droit d'auteur pour autoriser, dans certaines conditions, la fouille automatique de textes et de données.

Cette technique assez récente, appelée « text and data mining » en anglais (TDM), consiste à utiliser toutes sortes d'algorithmes pour analyser des corpus de textes parfois énormes. Les chercheurs travaillent souvent en collaboration entre plusieurs pays pour analyser des textes comme les articles scientifiques sur la Covid-19, des corpus entiers de livres d'auteurs d'une période historique ou les dossiers médicaux des patients des hôpitaux.

Mais cette technique se casse le nez sur les différents dispositifs légaux : «  Un patchwork de lois sur le droit d'auteur dans les différentes juridictions limite où et comment peut être pratiquée la fouille de textes et de données », constatent-ils.

Droit d'auteur : des traités internationaux très protecteurs

Selon ces chercheurs, les traités multilatéraux – comme la Convention de Berne ou les « traités Internet » de l'Organisation mondiale de la propriété intellectuelle (OMPI) signés à Genève en 1996 – régissent le droit d'auteur de façon à « imposer des normes élevées de protection du droit d'auteur, tout en laissant les exceptions, telles que celles permettant la recherche, largement à la discrétion des législateurs et des tribunaux nationaux ».

« Le résultat est un paysage fragmenté des exceptions », affirment-ils. On peut voir ci-dessous la carte des différentes situations des exceptions du droit d'auteur pour l'utilisation de la fouille de texte en recherche :

Exceptions sur le droit d'auteur pour la recherche sur la fouille de texte
Crédits : Sean M. Fiil-Flynn et al., adapté par N. Cary/ Science

Aux États-Unis, par exemple, l'exception pour « fair use » a été interprétée par la justice comme un droit à faire de la fouille de textes et données à des fins de recherche. Et d'autres pays comme le Canada ou l'Australie ont ajouté des exceptions aux droits d'auteurs pour la recherche qui peuvent être interprétées comme une autorisation du TDM.

Mais, selon ces chercheurs, « seul un cinquième environ de ces exceptions à la recherche est suffisamment large pour permettre l'ensemble de la fouille automatique de textes en recherche, qui requiert la capacité de copier, partager et analyser des œuvres entières en collaboration avec d'autres personnes ».

Le Comité permanent du droit d’auteur et des droits connexes de l'OMPI examine justement actuellement l'harmonisation des exceptions au droit d’auteur et aux droits connexes. Sean Flynn et ses collègues veulent en profiter pour pousser ce comité à harmoniser les exceptions sur le TDM. Ils prennent en exemple le dernier traité de l'OMPI signé à Marrakech en 2013 qui a harmonisé les exceptions au droit d'auteur pour les personnes souffrant de déficiences visuelles pour montrer que l'OMPI accepte, parfois, d'harmoniser les exceptions.

En France, la loi République numérique 1ère porte d'entrée du TDM

En France, c'est en 2016 que la loi a commencé à prendre en compte le besoin d'une exception au droit d'auteur pour la fouille automatique de textes et de données à des fins de recherche. L'article 38 de la Loi République Numérique modifiait le code de la propriété intellectuelle comme ceci :

  • « Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche ;  » 

  • « les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale. La conservation et la communication des copies techniques issues des traitements, au terme des activités de recherche pour lesquelles elles ont été produites, sont assurées par des organismes désignés par décret. Les autres copies ou reproductions sont détruites. »

Problème, les services des différents ministères concernés ont pris beaucoup de temps pour rédiger le décret cité au premier point.

Une directive européenne transposée en 2021

Au point qu'il a été abandonné, car une directive de l'Union européenne a entre temps été adoptée sur le sujet en avril 2019. Celle-ci instaure deux dispositifs en faveur de la fouille de textes et de données : l’une à des fins de recherche exclusivement à laquelle ne peuvent pas s’opposer les titulaires de droit concernés, et l’autre qui permet à tout un chacun de faire du TDM avec une condition d'opt-out pour les titulaires de droits d'auteur.

Cette directive a finalement été transposée dans le droit français par une ordonnance le 24 octobre 2021.

Celle-ci permet d'avoir une première définition légale française de la fouille de textes et de données : « la mise en œuvre d'une technique d'analyse automatisée de textes et données sous forme numérique afin d'en dégager des informations, notamment des constantes, des tendances et des corrélations ».

L'ordonnance autorise « des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées sans autorisation des auteurs en vue de fouilles de textes et de données menées à bien aux seules fins de la recherche scientifique ».

Mais ce texte donne une liste restreinte des entités qui peuvent prétendre faire cette fouille à des fins de recherche : « les organismes de recherche, les bibliothèques accessibles au public, les musées, les services d'archives ou les institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore, ou pour leur compte et à leur demande par d'autres personnes, y compris dans le cadre d'un partenariat sans but lucratif avec des acteurs privés. »

L'ordonnance transpose aussi la partie de la directive concernant la fouille de textes et de données pour tout un chacun. Elle autorise «  des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

5
Avatar de l'auteur

Écrit par Martin Clavey

Tiens, en parlant de ça :

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

Avec neutralité, sans neutralité

16:58 ÉcoWeb 8
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Crypto influenceurs

16:41 Éco 3
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Ça en fait des démarrage de DeLorean

14:45 Science 1

Sommaire de l'article

Introduction

Droit d'auteur : des traités internationaux très protecteurs

En France, la loi République numérique 1ère porte d'entrée du TDM

Une directive européenne transposée en 2021

Logo Twitch

Citant des « coûts prohibitifs », Twitch quitte la Corée du Sud

ÉcoWeb 8
Formation aux cryptomonnaies par Binance à Pôle Emploi

Binance fait son marketing pendant des formations sur la blockchain destinées aux chômeurs

Éco 3
Consommation électrique du CERN

L’empreinte écologique CERN en 2022 : 1 215 GWh, 184 173 teqCO₂, 3 234 Ml…

Science 1
station électrique pour voitures

Voitures électriques : dans la jungle, terrible jungle, des bornes de recharge publiques

Société 46

#LeBrief : intelligence artificielle à tous les étages, fichier biométrique EURODAC

KDE Plasma 6

KDE Plasma 6 a sa première bêta, le tour des nouveautés

Soft 13
Un homme noir regarde la caméra. Sur son visage, des traits blancs suggèrent un traitement algorithmique.

AI Act et reconnaissance faciale : la France interpelée par 45 eurodéputés

DroitSociété 4
Api

La CNIL préconise l’utilisation des API pour le partage de données personnelles entre organismes

SécuSociété 2
Fouet de l’Arcep avec de la fibre

Orange sanctionnée sur la fibre : l’argumentaire de l’opérateur démonté par l’Arcep

DroitWeb 20
Bombes

Israël – Hamas : comment l’IA intensifie les attaques contre Gaza

IA 17

#LeBrief : bande-annonce GTA VI, guerre électronique, Spotify licencie massivement

Poing Dev

Le poing Dev – Round 7

Next 73
Logo de Gaia-X sour la forme d’un arbre, avec la légende : infrastructure de données en forme de réseau

Gaia-X « vit toujours » et « arrive à des étapes très concrètes »

WebSécu 6

Trois consoles portables en quelques semaines

Hard 37
Une tasse estampillée "Keep calm and carry on teaching"

Cyberrésilience : les compromis (provisoires) du trilogue européen

DroitSécu 3

#LeBrief : fuite de tests ADN 23andMe, le milliard pour Android Messages, il y a 30 ans Hubble voyait clair

#Flock a sa propre vision de l’inclusion

Flock 25
Un Sébastien transformé en lapin par Flock pour imiter le Quoi de neuf Docteur des Looney Tunes

Quoi de neuf à la rédac’ #10 : nous contacter et résumé de la semaine

44
Autoportrait Sébastien

[Autoportrait] Sébastien Gavois : tribulations d’un pigiste devenu rédac’ chef

Next 21
Logo de StreetPress

Pourquoi le site du média StreetPress a été momentanément inaccessible

Droit 21
Amazon re:Invent

re:Invent 2023 : Amazon lance son assistant Q et plusieurs services IA, dont la génération d’images

IA 14
Un œil symbolisant l'Union européenne, et les dissensions et problèmes afférents

Le Conseil de l’UE tire un bilan du RGPD, les États membres réclament des « outils pratiques »

Droit 6

19 associations européennes de consommateurs portent plainte contre Meta

DroitSocials 16

#LeBrief : Ariane 6 l’été prochain, Nextcloud rachète Roundcube, désinformation via la pub

Chiffre et formules mathématiques sur un tableau

CVSS 4.0 : dur, dur, d’être un expert !

Sécu 16
Une tête de fusée siglée Starlink.

Starlink accessible à Gaza sous contrôle de l’administration israélienne

Web 35
Fibre optique

G-PON, XGS-PON et 50G-PON : jusqu’à 50 Gb/s en fibre optique

HardWeb 53
Photo d'un immeuble troué de part en part

Règlement sur la cyber-résilience : les instances européennes en passe de conclure un accord

DroitSécu 10
lexique IA parodie

AGI, GPAI, modèles de fondation… de quoi on parle ?

IA 11

#LeBrief : logiciels libres scientifiques, fermeture de compte Google, « fabriquer » des femmes pour l’inclusion

MIA : l’IA d’enseignement de Gabriel Attal pour faire oublier le classement PISA

IASociété 63

Une main sur laquelle est collée une étiquette où est écrit "human".

AI Act : des inquiétudes de l’impact de la position française sur les droits humains

DroitIA 1

Un tiroir montrant de nombreuses fiches voire fichiers

Une centaine d’ONG dénonce l’expansion du fichier paneuropéen biométrique EURODAC

DroitSécu 1

WhatsApp

Meta coupe le lien entre Instagram et Messenger

Soft 3

Nuage (pour le cloud) avec de la foudre

Cloud : Amazon rejoint Google dans l’enquête de la CMA sur les pratiques de Microsoft

DroitWeb 0

Des billets volent dans les airs.

Mistral AI s’apprête à lever 450 millions d’euros auprès de NVIDIA et a16z

ÉcoIA 0

Commentaires (5)


Tirnon Abonné
Il y a 1 an

Je ne connais pas en détails les limites des différentes réglementations mais celles en France sont elles bien trop restrictive ( les ayants droits étant sur tous les bon coup ) ou celles au USA/Canada/… le sont elles trop peu ? ( permettant des abus )


pamputt Abonné
Il y a 1 an

Je n’arrive pas trop à saisir ce qui est interdit actuellement. S’agit-il de pouvoir aspirer des montagnes de livres scannés ou autres document PDF sans restriction afin de pouvoir y effectuer la fouille ? Ou est ce qu’il s’agit d’autre chose ?


fofo9012 Abonné
Il y a 12 mois

Même remarque, je n’ai pas trop saisi tous les articles commencent par “source licite” une fois que tu as acquis un livre, tu as le droit de la scanner, faire un OCR et donc faire tourner une IA sur ces données.



Le point est peut-être sur l’échange (dans le cadre de la recherche) de cette source : pour faire valider une analyse d’IA: Il faut peut-être fournir la source à un panel d’humain, ou le truc permettrait qu’un seul chercheur acquière une œuvre pour que ses collègues travaillant sur la même IA puissent accéder à cette source ?


Jarodd Abonné
Il y a 1 an

Juste pour dire que je kiffe les articles de Martin, enfin je retrouve le plaisir de lire ces articles sur les sujets qui m’intéressent :iloveyou:



Par contre il n’est pas présent dans la liste des auteurs de la recherche.


Martin Clavey Abonné
Il y a 12 mois

Oh, merci, c’est tout gentil et ça fait plaisir :)