Les sous-titres de plus de 53 000 films et 85 000 épisodes de séries utilisés pour entraîner des IA

I'll be back

Inclus dans la fameuse archive The Pile, un ensemble de sous-titres tirés du site OpenSubtitles est utilisé depuis plusieurs années par des entreprises comme Apple, Anthropic, Meta ou Nvidia pour entraîner leurs IA génératives.

Martin Clavey

Le 25 novembre à 14h20

4 min

IA et algorithmes

Pour entrainer les modèles de langage, les entreprises d'IA génératives ont besoin de quantités massives de données pour que leurs outils puissent générer des contenus les plus proches possibles de contenus créés par des humains.

Elles utilisent le travail des « data workers » pour obtenir des données. Mais, comme nous l'avons plusieurs fois évoqué ici, elles puisent aussi dans des bases de données de contenus dont la légalité est discutée.

Le système de production de l’IA reproduit et amplifie les dépendances économiques historiques

En début d'année, nous montrions que Midjourney recrache, parfois sans même qu’on le lui demande, des images Pixar et d'œuvres protégées.

Les IA génératives entrainées sur les dialogues du Parrain ou de Pulp Fiction

La semaine dernière, The Atlantic a expliqué que plusieurs de ces modèles utilisent des milliers de sous-titres de films pour leur entrainement. Cela expliquerait que des auteurs de dialogues puissent régulièrement retrouver leur travail dans les réponses des chatbots comme ChatGPT.

Pour le vérifier, le média américain a téléchargé The Pile, une archive déjà pointée du doigt, par exemple dans un procès contre NVIDIA, pour compiler des livres numériques protégés par le copyright. The Atlantic y a recensé plus de 53 000 fichiers de sous-titres de films et 85 000 d'épisodes de séries. Y figurent des films comme Le Parrain, Pulp Fiction ou encore Star Wars: Clone Wars.

IA générative : NVIDIA attaquée pour violation du Copyright

Tous ces sous-titres viennent, de fait, du site de téléchargement de sous-titres Opensubtitles. Si les auteurs de The Pile n'ont pas caché avoir rassemblé près de 20Go de données venant de ce site, l'information a été peu (si ce n'est pas) relevée.

De GPT-3 à de récents modèles d'Apple

L'archive The Pile n'a pas seulement été utilisée par NVIDIA. GPT-3 d'OpenAI est cité comme exemple par le site du groupe de recherche EleutherAI qui a créé l'archive, même si OpenAI a détruit les jeux de données avec lesquels elle a entrainé ses premiers modèles.

Les modèles OPT de Meta, en 2022, et les modèles OpenELM d'Apple, créés en avril dernier, s'appuient aussi sur The Pile, expliquent dans leurs articles les chercheurs des deux entreprises [PDF, PDF]. Et sur Hugging Face, plus de 220 modèles utilisant cette archive sont recensés.

Les sous-titres, une source pour le rythme et le style des discussions orales

Si les livres utilisés par les entreprises d'IA génératives pour entraîner leurs IA leur permettent de générer des textes proches de ce que peuvent créer les écrivains, les sous-titres leur amènent d'autres données précieuses sur la langue. Ils sont une source d'information importante sur la façon dont sont rythmées nos conversations, ainsi que le style linguistique que les humains utilisent à l'oral.

Sur son site, le syndicat des auteurs britanniques WGGB a réagi en affirmant que les écrivains « sont à juste titre en colère et préoccupés par cette nouvelle ». Il indique s'opposer « fermement à cette mainmise sur le travail des écrivains et a mené une campagne et un lobbying acharnés sur cette question ». Il demande à ce que les auteurs soient rémunérés pour l'utilisation de leur travail de cette manière et qu'un organisme de régulation soit mis en place.

The Atlantic a créé un petit outil permettant de rechercher les sous-titres de tel film, telle autrice ou tel acteur.

Commentaires (23)

potn Abonné

Le 25/11/2024 à 15h20

Il demande à ce que les auteurs soient rémunérés pour l'utilisation de leur travail de cette manière et qu'un organisme de régulation soit mis en place.

Heureusement qu'ils sont pas aux USA, car la tendance y est l'inverse en ce moment.
La guilde des auteurs aux USA doivent avoir un peu la haine. ^^'

RuMaRoCO Abonné

Modifié le 25/11/2024 à 15h31

Je suis toujours partagé avec ce type de pratique :
D'un coté je me dis que quand même ces entreprises qui gagnent des milliards (allez des millions) de dollard ne paie pas le coût des efforts fait.
D'un autre coté si les documents sont libre d'accès sans contraites nous n'avons rien à dire.

Indépendement sur le fond, je vois quand même un problème avec l'asuge des soustitres car ce n'est pas seulement une traduction mais aussi une interpréation subjectif aussi.

(conf. les vidéo youtube de MisterFOX
par exemple :

YouTube

Wosgien Abonné

Le 25/11/2024 à 15h30

On va avoir des IA qui parlent comme des héros de série ou des perso de BD.
Donc tout en punchline? Ou version Achille Talon "Cher Lefuneste, nonobstant l'intérêt particulier porté à la simulation intellectuelle assistée par calculateur, j'épanche ma soif littéraire littéralement avec des bulles, à l'opposé de la bière dont le pouvoir désaltérateur est à l'inverse ces dernières. Hop."

RuMaRoCO Abonné

Le 25/11/2024 à 15h38

~~Oui pour le 1er exemple, moins pour le second.
f ma remarque, car justement les "bons" créateurs de sous titre traduisent moins qu'ils intreprètent car il faut que le temps de lecteur soit aussi cohérent avec le temps de la scène. ~~y

En fin de compte le propos est juste j'avais oublié le volet livre de la chose.
My bad.

eglyn Abonné

Le 25/11/2024 à 17h19

ChatGPT peut prendre l'accent marseillais, rien que pour cela, ça vaut le coup tous ces entrainement inutiles XD (je suis Marseillais j'ai le droit)

fred42 Abonné

Le 25/11/2024 à 16h22

Mais, comme nous l'avons plusieurs fois évoqué ici, elles puisent aussi dans des bases de données de contenus dont la légalité est discutée.

Pour The Pile dont il s'agit ici, leur point de vue sur la légalité est expliqué dans leur papier au § 7.1, ils pensent évidement être dans la légalité. Comme je l'ai déjà dit, seule la justice US (qui semble être concernée ici) peut dire si l'usage est légal ou pas.
De plus, pour ce qui est d'Opensubtitles, il faudrait savoir comment le contenu a été récupéré. De ce que je lis sur le site, pour récupérer d'importantes quantités de données sans se faire bannir, il faut les consulter. Par contre, le statut légal de ces données n'est pas très clair, la page fait assez brouillon. L'usage commercial est soumis aux lois US et "étrangères" sur le Copyright. On lit aussi :

we mainly provide movie's subtitles translated by users.

Dans ce cas, c'est chaque auteur de traduction qui doit se prononcer sur la légalité de l'usage.
On revient donc toujours aux mêmes questions : l'usage de ce type de données pour l'entraînement est-il commercial, entre-t-il dans le fair use ?

Il serait intéressant de demander aux deux parties (The Pile et Opensubtitles) si les données ont été récupérées avec l'accord de Opensubtitles ou non. Cela apporterait au moins une information intéressante.

Okki Abonné

Modifié le 25/11/2024 à 16h41

Le site est illégal. Les sous-titres sont soit récupérés illégalement des DVD / BluRay / plateformes de SVOD… soit traduits par des amateurs (fansub) sans autorisation des ayants droits.

fred42 Abonné

Le 25/11/2024 à 16h57

D'où tires-tu l'information que les sous-titres sont récupérés des DVD, et autres plateformes ? Tu as une source ?

Pourquoi une traduction de dialogues faite sans but commercial devrait-elle avoir besoin d'une autorisation en droit US ? Cela me semble pouvoir tomber dans le fair use.

SebGF Abonné

Le 25/11/2024 à 17h58

C'est effectivement en droit français que la traduction sans autorisation est interdite, selon l'article L122-4 du code de la propriété intellectuelle.

De Compet Abonné

Modifié le 25/11/2024 à 18h29

Quoiqu'en disent Les filles de kamaré

Okki Abonné

Le 26/11/2024 à 01h46

Pas qu'en France. Quasiment tous les pays ont signé la Convention de Berne pour la protection des œuvres littéraires et artistiques. Les dialogues d'un film ou d'une série sont protégés par le droit d'auteur et il faut donc une autorisation des ayants droits pour pouvoir les traduire.

SebGF Abonné

Le 26/11/2024 à 08h55

Je citais le droit français parce que je connaissais l'article de loi en question. En droit US, je ne sais pas s'il y a eu des jurisprudences permettant de dire que la traduction amateur est illégale vis à vis du copyright et de son fair use là-bas.

Okki Abonné

Le 26/11/2024 à 02h04

Pas besoin de source. Il suffit de jeter un oeil aux derniers sous-titres ajoutés, de constater qu'ils ont ceux des derniers épisodes la série Cat's Eyes, dont l'épisode 7 qui n'a pas encore été diffusé. Tu vois que le nom du fichier correspond à une release disponible sur les réseaux P2P (Cats.Eyes.2024.S01E07.iNTERNAL.FRENCH.1080p.WEB.H264-FW). Et quand on ouvre le .srt dans un éditeur de texte, tout à la fin, on peut lire SOUS-TITRAGE : RED BEE MEDIA.

En parcourant un peu la liste des dernières nouveautés, on voit que c'est pas mal récupéré depuis des releases scene ou P2P, qui contiennent souvent les tags AMZN (téléchargé chez Amazon), NF (Netflix)… Puis WEB-DL, c'est de la SVOD ou de l'achat numérique, sans préciser la plateforme. L'avantage par rapport aux DVD / BluRay, c'est que les sous-titres seront déjà ok, il n'y aura pas besoin de faire d'OCR (sur les médias physiques, c'était des images qui étaient superposées au film). Il n'y a donc plus qu'à extraire le sous-titre prêt à l'emploi et le balancer sur OpenSubtitles…

pamputt Abonné

Le 26/11/2024 à 10h34

Le fansub est illégal ou c'est seulement la mise à disposition des sous-titres ainsi créés qui l'est ?

SebGF Abonné

Le 26/11/2024 à 11h37

Je suppose que du moment que ça reste dans ta sphère privée (usage personnel) y'a peu de chances qu'on te cherche des noises.

Par contre, oui, au regard du droit français, traduire et diffuser une oeuvre sans en détenir les droits est illégal.

pamputt Abonné

Le 26/11/2024 à 11h57

Le cas auquel je pense c'est un film en anglais pour lequel on crée les sous-titres en anglais. C'est juste une transcription fidèle de ce qui se dit oralement. Dans le cas où on traduit en français un fichier de sous-titres en anglais, là je comprends que le droit d'auteur s'applique.

SebGF Abonné

Modifié le 26/11/2024 à 14h12

Pareil, relis l'article L122-4 du code de la propriété intellectuelle. Le point important est le consentement de l'auteur et ou de ses ayants-droits.

Il ne s'intéresse pas au support (c'est bien mentionné moyen quelconque) mais à l'accord donné.

janvi Abonné

Le 25/11/2024 à 17h30

4 ou 5 version que j'ai DL de S01E01 de TWD-The Ones Who Live.... Tous avec sous titre complétement bidon. J'ai mis de coté mon impatience pour attendre la diffusion FR et avoir du VOST qui tienne la route.

=> Si ca rentre dans le jeu d'entrainement, il va falloir s'accrocher !

Mihashi Abonné

Le 25/11/2024 à 17h35

Les sous-titres traduits par IA qui servent à entrainer les IA ? 🤭

trytodosth Abonné

Le 25/11/2024 à 19h56

Moi j'en profite pour reconnaître l'énorme travailleur de tous ces gens qui nous ont généré des sous-titres de qualité sur leur temps libre. Je me souviens encore des soirées de recalage des sous-titres à la main quand ça ne voulait pas matcher mon DL et des quelques soupirs quand des caractères spéciaux remplaçait les accents ou apostrophes 😅

Pseudooo Abonné

Le 25/11/2024 à 23h20

C'est cool de parler de ce travail.
Je me rappelle avoir fait quelques traductions à une époque, lassé de devoir d'avoir de mauvais sous titres.
Pour bien le faire il faut rentrer dans la série, saisir l'ambiance et passer un peu de temps à traduire 😅

Breizhad Abonné

Le 25/11/2024 à 22h15

Je bosse pour une boite de média, c'est amusant ce sujet à été discuté très récemment. L'idée (très résumée) est de faire des sous titre par IA uniquement pour le simulcast par exemple, pour les accros qui veulent voir (et comprendre) de suite. Mais je me demande combien de temps cela va prendre avant que les directeurs se disent qu'au fond ça suffit bien.

Zone démilitarisée

Le 26/11/2024 à 08h15

Les sous-titres auto-générés par Dailymotion laissent parfois apparaître le texte suivant : "Sous-titrage Société Radio-Canada".

On se demande ce que ça fait là, mais on comprend avec une recherche Google que ça provient d'un biais d'une IA spécialisée en sous-titrage qui a été entraînée avec du contenu non libre.