La complexité légale de la fouille automatique de textes et données

Toi, tu creuses...

Martin Clavey

Le 06 décembre 2022 à 14h49

La complexité légale de la fouille automatique de textes et données

Toi, tu creuses...

Martin Clavey

Le 06 décembre 2022 à 14h49

Société numérique

Société

6 min

La fouille automatique de textes et de données (ou text and data mining en anglais) est une technique qui permet beaucoup d’avancées scientifiques, mais elle se heurte aux conceptions des droits d’auteurs et voisins. Selon un article publié dans la revue Science, des lois obsolètes entravent la recherche.

Sean Flynn et 17 autres chercheurs plaident pour une harmonisation d’ampleur mondiale des lois sur le droit d’auteur pour autoriser, dans certaines conditions, la fouille automatique de textes et de données.

Cette technique assez récente, appelée « text and data mining » en anglais (TDM), consiste à utiliser toutes sortes d’algorithmes pour analyser des corpus de textes parfois énormes. Les chercheurs travaillent souvent en collaboration entre plusieurs pays pour analyser des textes comme les articles scientifiques sur la Covid-19, des corpus entiers de livres d’auteurs d’une période historique ou les dossiers médicaux des patients des hôpitaux.

Mais cette technique se casse le nez sur les différents dispositifs légaux : « Un patchwork de lois sur le droit d’auteur dans les différentes juridictions limite où et comment peut être pratiquée la fouille de textes et de données », constatent-ils.

Droit d’auteur : des traités internationaux très protecteurs

Selon ces chercheurs, les traités multilatéraux – comme la Convention de Berne ou les « traités Internet » de l'Organisation mondiale de la propriété intellectuelle (OMPI) signés à Genève en 1996 – régissent le droit d'auteur de façon à « imposer des normes élevées de protection du droit d'auteur, tout en laissant les exceptions, telles que celles permettant la recherche, largement à la discrétion des législateurs et des tribunaux nationaux ».

« Le résultat est un paysage fragmenté des exceptions », affirment-ils. On peut voir ci-dessous la carte des différentes situations des exceptions du droit d'auteur pour l'utilisation de la fouille de texte en recherche :

Exceptions sur le droit d'auteur pour la recherche sur la fouille de texte — Crédits : Sean M. Fiil-Flynn et al., adapté par N. Cary/ Science

Aux États-Unis, par exemple, l'exception pour « fair use » a été interprétée par la justice comme un droit à faire de la fouille de textes et données à des fins de recherche. Et d'autres pays comme le Canada ou l'Australie ont ajouté des exceptions aux droits d'auteurs pour la recherche qui peuvent être interprétées comme une autorisation du TDM.

Mais, selon ces chercheurs, « seul un cinquième environ de ces exceptions à la recherche est suffisamment large pour permettre l'ensemble de la fouille automatique de textes en recherche, qui requiert la capacité de copier, partager et analyser des œuvres entières en collaboration avec d'autres personnes ».

Le Comité permanent du droit d’auteur et des droits connexes de l'OMPI examine justement actuellement l'harmonisation des exceptions au droit d’auteur et aux droits connexes. Sean Flynn et ses collègues veulent en profiter pour pousser ce comité à harmoniser les exceptions sur le TDM. Ils prennent en exemple le dernier traité de l'OMPI signé à Marrakech en 2013 qui a harmonisé les exceptions au droit d'auteur pour les personnes souffrant de déficiences visuelles pour montrer que l'OMPI accepte, parfois, d'harmoniser les exceptions.

En France, la loi République numérique 1ère porte d'entrée du TDM

En France, c'est en 2016 que la loi a commencé à prendre en compte le besoin d'une exception au droit d'auteur pour la fouille automatique de textes et de données à des fins de recherche. L'article 38 de la Loi République Numérique modifiait le code de la propriété intellectuelle comme ceci :

« Les copies ou reproductions numériques réalisées à partir d'une source licite, en vue de l'exploration de textes et de données incluses ou associées aux écrits scientifiques pour les besoins de la recherche publique, à l'exclusion de toute finalité commerciale. Un décret fixe les conditions dans lesquelles l'exploration des textes et des données est mise en œuvre, ainsi que les modalités de conservation et de communication des fichiers produits au terme des activités de recherche pour lesquelles elles ont été produites ; ces fichiers constituent des données de la recherche ; »
« les copies ou reproductions numériques de la base réalisées par une personne qui y a licitement accès, en vue de fouilles de textes et de données incluses ou associées aux écrits scientifiques dans un cadre de recherche, à l'exclusion de toute finalité commerciale. La conservation et la communication des copies techniques issues des traitements, au terme des activités de recherche pour lesquelles elles ont été produites, sont assurées par des organismes désignés par décret. Les autres copies ou reproductions sont détruites. »

Problème, les services des différents ministères concernés ont pris beaucoup de temps pour rédiger le décret cité au premier point.

Une directive européenne transposée en 2021

Au point qu'il a été abandonné, car une directive de l'Union européenne a entre temps été adoptée sur le sujet en avril 2019. Celle-ci instaure deux dispositifs en faveur de la fouille de textes et de données : l’une à des fins de recherche exclusivement à laquelle ne peuvent pas s’opposer les titulaires de droit concernés, et l’autre qui permet à tout un chacun de faire du TDM avec une condition d'opt-out pour les titulaires de droits d'auteur.

Cette directive a finalement été transposée dans le droit français par une ordonnance le 24 octobre 2021.

Celle-ci permet d'avoir une première définition légale française de la fouille de textes et de données : « la mise en œuvre d'une technique d'analyse automatisée de textes et données sous forme numérique afin d'en dégager des informations, notamment des constantes, des tendances et des corrélations ».

L'ordonnance autorise « des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées sans autorisation des auteurs en vue de fouilles de textes et de données menées à bien aux seules fins de la recherche scientifique ».

Mais ce texte donne une liste restreinte des entités qui peuvent prétendre faire cette fouille à des fins de recherche : « les organismes de recherche, les bibliothèques accessibles au public, les musées, les services d'archives ou les institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore, ou pour leur compte et à leur demande par d'autres personnes, y compris dans le cadre d'un partenariat sans but lucratif avec des acteurs privés. »

L'ordonnance transpose aussi la partie de la directive concernant la fouille de textes et de données pour tout un chacun. Elle autorise « des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

Commentaires (5)

Tirnon Premium

Le 06/12/2022 à 17h40

Je ne connais pas en détails les limites des différentes réglementations mais celles en France sont elles bien trop restrictive ( les ayants droits étant sur tous les bon coup ) ou celles au USA/Canada/… le sont elles trop peu ? ( permettant des abus )

pamputt Premium

Le 06/12/2022 à 18h01

Je n’arrive pas trop à saisir ce qui est interdit actuellement. S’agit-il de pouvoir aspirer des montagnes de livres scannés ou autres document PDF sans restriction afin de pouvoir y effectuer la fouille ? Ou est ce qu’il s’agit d’autre chose ?

fofo9012 Premium

Le 07/12/2022 à 06h59

Même remarque, je n’ai pas trop saisi tous les articles commencent par “source licite” une fois que tu as acquis un livre, tu as le droit de la scanner, faire un OCR et donc faire tourner une IA sur ces données.

Le point est peut-être sur l’échange (dans le cadre de la recherche) de cette source : pour faire valider une analyse d’IA: Il faut peut-être fournir la source à un panel d’humain, ou le truc permettrait qu’un seul chercheur acquière une œuvre pour que ses collègues travaillant sur la même IA puissent accéder à cette source ?

Jarodd Premium

Le 06/12/2022 à 20h08

Juste pour dire que je kiffe les articles de Martin, enfin je retrouve le plaisir de lire ces articles sur les sujets qui m’intéressent

Par contre il n’est pas présent dans la liste des auteurs de la recherche.

Martin Clavey

Le 07/12/2022 à 15h16

Oh, merci, c’est tout gentil et ça fait plaisir :)