Pour entrainer ses IA, NVIDIA récupèrerait des millions de vidéos sans autorisation

Données de la discorde

NVIDIA utiliserait massivement des vidéos récupérées sur Internet (YouTube, Netflix…) pour entrainer ses modèles d’IA, sans autorisation. L’entreprise n’est pas la seule dans ce cas, d’autres ont déjà été épinglées pour un tel comportement. Mais dans la course effrénée actuelle de l’intelligence artificielle, il faut aller toujours plus vite et la politique actuelle serait donc de « ne pas demander la permission ».

Sébastien Gavois

Le 06 août à 12h31

7 min

IA et algorithmes

404 Media a récupéré de nombreux documents in ternes de NVIDIA qui montrent comment l’entreprise a développé et entrainé un modèle de fondation d’intelligence artificielle. Pour cela, l’entreprise aurait « extrait des vidéos de YouTube et de plusieurs autres sources ». Le modèle n’a pas encore été dévoilé, mais il pourrait servir à améliorer les produits NVIDIA existants.

Sans données, pas d’intelligence artificielle

Nous avons de cesse de le répéter : pour entrainer une intelligence artificielle, il faut des quantités astronomiques de données (et suffisamment de puissance de calcul pour les traiter). Nous l’avons vu avec notre exemple sur l’entrainement d’une IA en 10 lignes de code. Il faut non seulement des données, mais également savoir à quoi elles correspondent. On parle de données étiquetées ou annotées.

On développe et entraine une IA, avec seulement 10 lignes de code !

Dans l’intelligence artificielle, on retrouve donc deux piliers : les algorithmes et les données de qualité. Il existe des sources libres bien sûr, mais également d’autres protégées par des droits d’auteur. Pour la vidéo, des plateformes comme YouTube et Netflix sont des sources importantes. Cependant, récupérer les vidéos pour entrainer des IA est généralement interdit par les conditions générales.

NVIDIA en « total conformité », 404 Media raconte une autre histoire…

NVIDIA affirme à nos confrères que ses pratiques en la matière sont en « totale conformité » avec la loi sur les droits d'auteur. Selon les documents consultés par 404 Media, lorsqu’un employé soulevait cette question sur des vidéos YouTube et d’autres sources (notamment universitaires), les responsables auraient affirmé que l’entreprise avait les autorisations nécessaires pour utiliser ces contenus.

Selon un ancien de NVIDIA interrogé par notre confrère et souhaitant garder l’anonymat, « les employés étaient invités à extraire des vidéos de Netflix, de YouTube et d’autres sources pour former un modèle d’intelligence artificielle » pour différentes applications, notamment NVIDIA Omniverse et les systèmes de voiture autonome.

Des données en quantité : « 80 ans de vidéos par jour »

Pour récupérer les vidéos, « les employés utilisent un récupérateur open source de vidéos YouTube appelé yt-dlp, combiné à des machines virtuelles qui actualisent les adresses IP pour éviter d’être bloquées par YouTube », explique 404 Media. D’autres sources comme Netflix seraient aussi utilisées, mais YouTube serait le principal centre d’intérêt. Au total, NVIDIA aurait « téléchargé 80 ans de vidéos par jour ».

Interrogé par nos confrères, un porte-parole de Google renvoie à l’histoire d’OpenAI et de GPT-4 entrainé avec des vidéos YouTube. Neal Mohan (CEO) de YouTube expliquait alors qu’entraîner une IA avec des données de sa plateforme était une violation claire de ses conditions d'utilisation. Chez Netflix, le porte-parole affirme à nos confrères que la plateforme n’a pas d’accord avec NVIDIA pour utiliser ses contenus et qu’elle n’autorise pas le scraping.

« N’importe qui est libre d’apprendre des faits, des idées »

De son côté, NVIDIA assure respecter « les droits de tous les créateurs de contenu » et se dit être en pleine conformité avec la loi sur les droits d’auteur. On imagine mal l’entreprise affirmer le contraire.

« La loi sur les droits d’auteur protège des expressions particulières, mais pas des faits, des idées, des données ou des informations. N’importe qui est libre d’apprendre des faits, des idées, des données ou des informations d’une autre source et de les utiliser pour créer ses propres formulations. L'usage raisonnable protège aussi la possibilité d'utiliser une œuvre à des fins de transformation, comme la formation de modèles ».

Toujours selon nos confrères, des discussions internes font état d’ensembles de données provenant du monde académique, notamment HD-VG-130M, dont la licence précise que les données ne peuvent être utilisées que dans le monde académique.

NVIDIA pourrait utiliser ces données dans ce but, mais les discussions internes « montrent clairement », selon 404 Media, que les modèles d’IA résultant avaient bien pour but de « renforcer les produits commerciaux de NVIDIA dans un secteur de l’IA hautement concurrentiel ».

C’est quoi un « usage raisonnable » ?

Une des questions est de savoir si l’entrainement d’une intelligence artificielle est une « transformation » suffisamment importante pour entrer dans le cadre d’un « fair use » ou usage raisonnable. Pour Robert Mahari du MIT, interrogé par nos confrères, le système juridique n’aurait pas encore défini si l’utilisation de données d’entraînement pour développer un modèle d’IA est suffisamment transformateur.

Le sujet est compliqué : « Mon point de vue (partiellement résumé dans cet article de Science) est qu’il se peut en effet que l’entraînement d’un modèle d’IA constitue un usage raisonnable, mais cela ne signifie pas que la génération de résultats similaires à des éléments spécifiques des données d’entraînement n’est pas une infraction ». Pour rappel, les modèles peuvent parfois recracher les données d’entrainement, permettant alors de remonter à une des sources.

Agir d’abord, demander ensuite ?

404 Media conclut que, selon ses investigations, la politique actuelle des grandes entreprises de l’intelligence artificielle serait de « ne pas demander la permission » lorsqu’il s’agit de rassembler du contenu et de l’utiliser pour des entrainements. De toute façon, une fois le mal fait, il ne reste plus grand-chose à protéger…

« Les fuites de conversations internes comme celles-ci sont le seul moyen pour quiconque de savoir si son travail est utilisé pour entrainer un modèle qui rapporte à une entreprise comme NVIDIA – Runway ou OpenAI – des milliards de dollars », expliquent nos confrères.

Les autres exemples ne doivent rien au hasard, les deux entreprises ont aussi été prises la main dans le sachet de ~~friandises~~ données personnelles (qu’elles consomment de manière boulimique).

Il y a quelques semaines, on apprenait, par exemple, que les sous-titres de milliers de vidéos YouTube étaient utilisés sans autorisation par des entreprises comme Apple, Anthropic, NVIDIA et Salesforce. Une histoire parmi tellement d’autres.

Et maintenant ?

La course à l’intelligence artificielle incite les entreprises à aller toujours plus vite pour être les premières et dominer un marché hautement lucratif. Apple Intelligence en a fait les frais en arrivant en retard sur la concurrence et en devant s’appuyer sur des partenaires pour proposer sa propre solution. Et, comme expliqué au début, pas d’intelligence artificielle sans données.

Internet étant le plus grand lac de données mondial, il est facile d’aller y piocher dedans des informations pour avancer rapidement. Les données sont ensuite broyées pour former des IA qui ne disent pas directement comment elles ont été mises au point, rendant la piste difficile à suivre.

404 Media a raison : il faut en arriver à des histoires comme celle du jour, ou bien celles d’OpenAI, de Runway et de bien d’autres entreprises pour découvrir le pot aux roses. Et encore, la question est maintenant de savoir : que va-t-il se passer ?

Commentaires (20)

stefb69 Abonné

Modifié le 06/08/2024 à 12h41

est-ce que l entraînement ne s'apparente pas a la visualisation par un humain ? quel droit est applicable ?

fred42 Abonné

Le 06/08/2024 à 14h28

La question est compliquée parce que justement, on n'entraîne pas un humain mais une IA.

Quand ils disent : « N’importe qui est libre d’apprendre des faits, des idées », une IA n'est justement pas un "qui" mais un "quoi", donc est-ce que ce droit s'applique ?

Dans l'autre sens, une œuvre générée par un ordinateur, une IA (ou un animal) n'est pas protégée par le droit d'auteur.

Donc, utiliser la notion de fair use en parlant de transformation alors que ce n'est pas un humain qui transforme l'œuvre d'origine, n'a rien d'évident.

Il y a des procès en cours, il faut attendre les jugements définitifs avant d'avoir une idée claire sur le sujet. En plus, ces jugements pourront être différents en fonction des pays, certaines lois sur la propriété intellectuelle étant plus protectrices que d'autres.

SebGF Abonné

Le 06/08/2024 à 15h23

Quand ils disent : « N’importe qui est libre d’apprendre des faits, des idées », une IA n'est justement pas un "qui" mais un "quoi", donc est-ce que ce droit s'applique ?

La science fiction devient bientôt réalité avec les grandes IA qui sont considérées comme personnes physiques

(exemple dans L'Odyssée du temps de Arthur C. Clarke et Stephen Baxter)

rm Abonné

Le 06/08/2024 à 12h52

Chapeau bas pour le dessin Flock !

Jon Joe Abonné

Modifié le 06/08/2024 à 14h10

Quand un vidéaste inclut 3 notes de musique possédées par une major, l´intégralité de l´argent de cette vidéo va dans la poche de cette dernière, car "le vidéaste profite du travail des autres".

Du coup, Nvidia donnera-t-il l´intégralité de ses revenus aux vidéastes ayant permis l´entraînement de leur IA (qui aura nécessairement des fins commerciales)?

carbier Abonné

Le 06/08/2024 à 13h30

J'étais pas prêt pour l'illustration

Furanku Abonné

Le 06/08/2024 à 14h37

Une entreprise comme Google ou Netflix ne pourraient pas repérer des actions frauduleuses de ce type ?

Quand je vois que si on force un peu trop avec yt-dlp on peut se tapper un ban temporaire de l'IP, même un Nvidia qui peut répartir la charge au niveau mondial devrait quand même être repérable vu la quantité de données récupérées.

En tout cas là j'ai hâte que cette bulle finisse enfin par péter et que le marché se stabilise. C'est un Far-West au possible, avec des licornes à tout va, du même acabit qu'a connu la blockchain (qui est passée au second plan en terme de couverture médiatique et d'impact).
Il y a des potentiels sur les usages des IA (et perso je pense pas qu'une IAG sera la panacée). Mais là... c'est du gros n'importe quoi.

Thorgalix_21 Abonné

Modifié le 07/08/2024 à 09h57

On verra ce que donneront les différents jugement des affaires en cours (idem @fred42). En attendant, je ne peux m'empêcher de me dire que les entreprises qui pillent sans foi ni loi les contenus sur Internet devraient non seulement être condamnées à payer une amende (à qui ?) mais aussi à détruire le fruit de ce travail illégal.

edit : faute d'accord

WaffleOne Abonné

Le 07/08/2024 à 09h41

Je trouve que ce n'est pas nécessairement une bonne chose d'avoir un avis aussi trancher, je conçois totalement qu'il n'y a rien de fair à utiliser du contenu créatif de youtubeur pour entraîner une IA sans contrepartie mais il faut aussi voir que derrière, j'imagine qu'une majeure partie de ses créateurs de contenus utiliseront et bénéficieront de l'accès aux IA (chat-gpt 4o, llama 3.1, mistral) gratuitement (même si ça soulève d'autres questions). Pour moi c'est relativement donnant-donnant. Le gros problème qui subsistent c'est qu'en fonction de la qualité du travail de certains créateurs, l'IA en bénéficiera énormément, l'entreprise n'en sera que plus valorisé et engendrera des millions (voir des milliards) là dessus. Mais on devrait ranger nos fourches 5 minutes et laisser la justice trancher en espérant qu'en europe, on évite de complètement endiguer le progrès.

Thorgalix_21 Abonné

Le 07/08/2024 à 10h00

Ah le progrès ... vaste sujet. Quand notre environnement sera devenu invivable pour la majorité de la population, je ne sais pas ce que penseront les survivants de ce fameux (fumeux ?) progrès.
Parce que ne nous y trompons pas, vu l'augmentation de la consommation énergétique, la décarbonation n'est pas pour demain.

WaffleOne Abonné

Le 07/08/2024 à 10h03

Je pense que les progrès engendré par l'IA seront auto-limité par la limite de production énergétique que l'humanité ne pourras absolument pas dépassé dans tous les cas, est-ce que ça nous emmènera à notre propre perte ? je ne sais pas.

fry

Le 07/08/2024 à 10h29

le problème que je vois c'est que je soupçonne l'humanité d’être capable d'avoir une production énergétique considérablement destructrice, et qu'on rendra la planète inhabitable bien avant d’être confronté aux limites physiques de production énergétique :(

WaffleOne Abonné

Le 07/08/2024 à 10h39

Y'a plus qu'à prier pour qu'il nous reste une once de lucidité lorsque ça arrivera

xlp Abonné

Le 14/08/2024 à 18h10

Assez d'accord... S'ils devaient détruire le fruit, ça changerait sûrement la façon de procéder...
En attendant, "better ask for forgiveness than permission"

jahglory

Le 06/08/2024 à 14h49

Ce dessin !

Erwan123 Abonné

Modifié le 06/08/2024 à 17h18

Mais ils en font quoi des vidéos ensuite ? Comment elles sont utilisées, étiquetées, labellisées? Pas qu'un simple titre, il faut bien aller dans la vidéo ensuite pour labelliser des éléments dedans, non ?
Et en général il faut bien des p'tites mains pour faire ça, non ?
.

potn Abonné

Le 06/08/2024 à 17h59

Je me faisais la même réflexion.
Peut-être que les sous-titres pour sourds et malentendants peuvent être utilisés comme "tags" ?
Elles peuvent aussi être "étiquetées" par la recherche ayant donné lieu à leur récupération ? Si je recherches "chats" dans YouTube, toutes les vidéos qui ressortent peuvent être considérées comme des vidéos de chats.

WaffleOne Abonné

Le 07/08/2024 à 09h42

Je suppose que les scrappers s'appuient sur la génération de transcript (automatique ?) de youtube et l'IA analyse le texte pour avoir une idée du sujet et en déduire des labels perso c'est comme ça que je le visualise

Koub666 Abonné

Le 06/08/2024 à 19h03

Il est souvent plus facile de demander pardon, après que demander la permission avant. Ce n'est pas de moi, je vous rassure, cette citation est attribuée à Grace Hopper.
Quoi qu'il en soit, j'ai l'impression que c'est assez massivement appliqué dans la big tech

TNZfr

Le 07/08/2024 à 10h22

En guise de retour de bâton, je me marrerais bien que nVidia soit tenu de lever le secret industriel sur sa branche IA.