Pour entrainer ses IA, NVIDIA récupèrerait des millions de vidéos sans autorisation
Données de la discorde
NVIDIA utiliserait massivement des vidéos récupérées sur Internet (YouTube, Netflix…) pour entrainer ses modèles d’IA, sans autorisation. L’entreprise n’est pas la seule dans ce cas, d’autres ont déjà été épinglées pour un tel comportement. Mais dans la course effrénée actuelle de l’intelligence artificielle, il faut aller toujours plus vite et la politique actuelle serait donc de « ne pas demander la permission ».
Le 06 août à 12h31
7 min
IA et algorithmes
IA
404 Media a récupéré de nombreux documents internes de NVIDIA qui montrent comment l’entreprise a développé et entrainé un modèle de fondation d’intelligence artificielle. Pour cela, l’entreprise aurait « extrait des vidéos de YouTube et de plusieurs autres sources ». Le modèle n’a pas encore été dévoilé, mais il pourrait servir à améliorer les produits NVIDIA existants.
Sans données, pas d’intelligence artificielle
Nous avons de cesse de le répéter : pour entrainer une intelligence artificielle, il faut des quantités astronomiques de données (et suffisamment de puissance de calcul pour les traiter). Nous l’avons vu avec notre exemple sur l’entrainement d’une IA en 10 lignes de code. Il faut non seulement des données, mais également savoir à quoi elles correspondent. On parle de données étiquetées ou annotées.
Dans l’intelligence artificielle, on retrouve donc deux piliers : les algorithmes et les données de qualité. Il existe des sources libres bien sûr, mais également d’autres protégées par des droits d’auteur. Pour la vidéo, des plateformes comme YouTube et Netflix sont des sources importantes. Cependant, récupérer les vidéos pour entrainer des IA est généralement interdit par les conditions générales.
NVIDIA en « total conformité », 404 Media raconte une autre histoire…
NVIDIA affirme à nos confrères que ses pratiques en la matière sont en « totale conformité » avec la loi sur les droits d'auteur. Selon les documents consultés par 404 Media, lorsqu’un employé soulevait cette question sur des vidéos YouTube et d’autres sources (notamment universitaires), les responsables auraient affirmé que l’entreprise avait les autorisations nécessaires pour utiliser ces contenus.
Selon un ancien de NVIDIA interrogé par notre confrère et souhaitant garder l’anonymat, « les employés étaient invités à extraire des vidéos de Netflix, de YouTube et d’autres sources pour former un modèle d’intelligence artificielle » pour différentes applications, notamment NVIDIA Omniverse et les systèmes de voiture autonome.
Des données en quantité : « 80 ans de vidéos par jour »
Pour récupérer les vidéos, « les employés utilisent un récupérateur open source de vidéos YouTube appelé yt-dlp, combiné à des machines virtuelles qui actualisent les adresses IP pour éviter d’être bloquées par YouTube », explique 404 Media. D’autres sources comme Netflix seraient aussi utilisées, mais YouTube serait le principal centre d’intérêt. Au total, NVIDIA aurait « téléchargé 80 ans de vidéos par jour ».
Interrogé par nos confrères, un porte-parole de Google renvoie à l’histoire d’OpenAI et de GPT-4 entrainé avec des vidéos YouTube. Neal Mohan (CEO) de YouTube expliquait alors qu’entraîner une IA avec des données de sa plateforme était une violation claire de ses conditions d'utilisation. Chez Netflix, le porte-parole affirme à nos confrères que la plateforme n’a pas d’accord avec NVIDIA pour utiliser ses contenus et qu’elle n’autorise pas le scraping.
« N’importe qui est libre d’apprendre des faits, des idées »
De son côté, NVIDIA assure respecter « les droits de tous les créateurs de contenu » et se dit être en pleine conformité avec la loi sur les droits d’auteur. On imagine mal l’entreprise affirmer le contraire.
« La loi sur les droits d’auteur protège des expressions particulières, mais pas des faits, des idées, des données ou des informations. N’importe qui est libre d’apprendre des faits, des idées, des données ou des informations d’une autre source et de les utiliser pour créer ses propres formulations. L'usage raisonnable protège aussi la possibilité d'utiliser une œuvre à des fins de transformation, comme la formation de modèles ».
Toujours selon nos confrères, des discussions internes font état d’ensembles de données provenant du monde académique, notamment HD-VG-130M, dont la licence précise que les données ne peuvent être utilisées que dans le monde académique.
NVIDIA pourrait utiliser ces données dans ce but, mais les discussions internes « montrent clairement », selon 404 Media, que les modèles d’IA résultant avaient bien pour but de « renforcer les produits commerciaux de NVIDIA dans un secteur de l’IA hautement concurrentiel ».
C’est quoi un « usage raisonnable » ?
Une des questions est de savoir si l’entrainement d’une intelligence artificielle est une « transformation » suffisamment importante pour entrer dans le cadre d’un « fair use » ou usage raisonnable. Pour Robert Mahari du MIT, interrogé par nos confrères, le système juridique n’aurait pas encore défini si l’utilisation de données d’entraînement pour développer un modèle d’IA est suffisamment transformateur.
Le sujet est compliqué : « Mon point de vue (partiellement résumé dans cet article de Science) est qu’il se peut en effet que l’entraînement d’un modèle d’IA constitue un usage raisonnable, mais cela ne signifie pas que la génération de résultats similaires à des éléments spécifiques des données d’entraînement n’est pas une infraction ». Pour rappel, les modèles peuvent parfois recracher les données d’entrainement, permettant alors de remonter à une des sources.
Agir d’abord, demander ensuite ?
404 Media conclut que, selon ses investigations, la politique actuelle des grandes entreprises de l’intelligence artificielle serait de « ne pas demander la permission » lorsqu’il s’agit de rassembler du contenu et de l’utiliser pour des entrainements. De toute façon, une fois le mal fait, il ne reste plus grand-chose à protéger…
« Les fuites de conversations internes comme celles-ci sont le seul moyen pour quiconque de savoir si son travail est utilisé pour entrainer un modèle qui rapporte à une entreprise comme NVIDIA – Runway ou OpenAI – des milliards de dollars », expliquent nos confrères.
Les autres exemples ne doivent rien au hasard, les deux entreprises ont aussi été prises la main dans le sachet de friandises données personnelles (qu’elles consomment de manière boulimique).
Il y a quelques semaines, on apprenait, par exemple, que les sous-titres de milliers de vidéos YouTube étaient utilisés sans autorisation par des entreprises comme Apple, Anthropic, NVIDIA et Salesforce. Une histoire parmi tellement d’autres.
Et maintenant ?
La course à l’intelligence artificielle incite les entreprises à aller toujours plus vite pour être les premières et dominer un marché hautement lucratif. Apple Intelligence en a fait les frais en arrivant en retard sur la concurrence et en devant s’appuyer sur des partenaires pour proposer sa propre solution. Et, comme expliqué au début, pas d’intelligence artificielle sans données.
Internet étant le plus grand lac de données mondial, il est facile d’aller y piocher dedans des informations pour avancer rapidement. Les données sont ensuite broyées pour former des IA qui ne disent pas directement comment elles ont été mises au point, rendant la piste difficile à suivre.
404 Media a raison : il faut en arriver à des histoires comme celle du jour, ou bien celles d’OpenAI, de Runway et de bien d’autres entreprises pour découvrir le pot aux roses. Et encore, la question est maintenant de savoir : que va-t-il se passer ?
Pour entrainer ses IA, NVIDIA récupèrerait des millions de vidéos sans autorisation
-
Sans données, pas d’intelligence artificielle
-
NVIDIA en « total conformité », 404 Media raconte une autre histoire…
-
Des données en quantité : « 80 ans de vidéos par jour »
-
« N’importe qui est libre d’apprendre des faits, des idées »
-
C’est quoi un « usage raisonnable » ?
-
Agir d’abord, demander ensuite ?
-
Et maintenant ?
Commentaires (20)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousModifié le 06/08/2024 à 12h41
Le 06/08/2024 à 14h28
Quand ils disent : « N’importe qui est libre d’apprendre des faits, des idées », une IA n'est justement pas un "qui" mais un "quoi", donc est-ce que ce droit s'applique ?
Dans l'autre sens, une œuvre générée par un ordinateur, une IA (ou un animal) n'est pas protégée par le droit d'auteur.
Donc, utiliser la notion de fair use en parlant de transformation alors que ce n'est pas un humain qui transforme l'œuvre d'origine, n'a rien d'évident.
Il y a des procès en cours, il faut attendre les jugements définitifs avant d'avoir une idée claire sur le sujet. En plus, ces jugements pourront être différents en fonction des pays, certaines lois sur la propriété intellectuelle étant plus protectrices que d'autres.
Le 06/08/2024 à 15h23
(exemple dans L'Odyssée du temps de Arthur C. Clarke et Stephen Baxter)
Le 06/08/2024 à 12h52
Modifié le 06/08/2024 à 14h10
Du coup, Nvidia donnera-t-il l´intégralité de ses revenus aux vidéastes ayant permis l´entraînement de leur IA (qui aura nécessairement des fins commerciales)?
Le 06/08/2024 à 13h30
Le 06/08/2024 à 14h37
Quand je vois que si on force un peu trop avec yt-dlp on peut se tapper un ban temporaire de l'IP, même un Nvidia qui peut répartir la charge au niveau mondial devrait quand même être repérable vu la quantité de données récupérées.
En tout cas là j'ai hâte que cette bulle finisse enfin par péter et que le marché se stabilise. C'est un Far-West au possible, avec des licornes à tout va, du même acabit qu'a connu la blockchain (qui est passée au second plan en terme de couverture médiatique et d'impact).
Il y a des potentiels sur les usages des IA (et perso je pense pas qu'une IAG sera la panacée). Mais là... c'est du gros n'importe quoi.
Modifié le 07/08/2024 à 09h57
edit : faute d'accord
Le 07/08/2024 à 09h41
Le 07/08/2024 à 10h00
Parce que ne nous y trompons pas, vu l'augmentation de la consommation énergétique, la décarbonation n'est pas pour demain.
Le 07/08/2024 à 10h03
Le 07/08/2024 à 10h29
Le 07/08/2024 à 10h39
Le 14/08/2024 à 18h10
En attendant, "better ask for forgiveness than permission"
Le 06/08/2024 à 14h49
Modifié le 06/08/2024 à 17h18
Et en général il faut bien des p'tites mains pour faire ça, non ?
.
Le 06/08/2024 à 17h59
Peut-être que les sous-titres pour sourds et malentendants peuvent être utilisés comme "tags" ?
Elles peuvent aussi être "étiquetées" par la recherche ayant donné lieu à leur récupération ? Si je recherches "chats" dans YouTube, toutes les vidéos qui ressortent peuvent être considérées comme des vidéos de chats.
Le 07/08/2024 à 09h42
Le 06/08/2024 à 19h03
Quoi qu'il en soit, j'ai l'impression que c'est assez massivement appliqué dans la big tech
Le 07/08/2024 à 10h22