IA générative : GPT-4 entrainé avec un million d’heures de vidéos YouTube
De l'or en Tube ?
OpenAI aurait puisé dans les vidéos de YouTube pour se créer un corpus de données d'entraînement utilisé notamment pour GPT-4. La plateforme de vidéos en ligne rappelle que cette pratique est contraire à ses conditions d'utilisation.
Le 08 avril à 14h48
5 min
IA et algorithmes
IA
Dans la série des données utilisées par les entreprises d'IA génératives, le dernier épisode est un peu singulier. Jusque-là, les conflits concernaient soit des artistes, soit des éditeurs comme le New-York Times. Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.
- Le New York Times attaque OpenAI et Microsoft pour violation du Copyright
- IA générative : NVIDIA attaquée pour violation du Copyright
Selon des sources du New-York Times, justement, OpenAI aurait retranscrit plus d'un million d'heures de vidéos YouTube et les aurait ajoutées aux données d'entraînement de son modèle de langage GPT-4. Le conflit, ici, ne concerne pas le droit d'auteurs des vidéos, mais la violation des conditions d'utilisations de la plateforme de vidéos.
Recherche données d'entraînement désespérément
Pour entraîner leurs modèles de langage, les entreprises d'intelligences artificielles génératives ont besoin de quantités massives de données. Mais pour que les IA miment la création d'un texte écrit par un humain, ces données doivent aussi provenir de textes produits par des humains.
Si Wikipédia ou les « bibliothèques clandestines » comme LibGen sont connues comme des sources de ces différents modèles, chaque entreprise du domaine doit perpétuellement chercher de nouveaux filons de données pour enrichir ses modèles et les différencier de ceux des concurrents. S'il existe depuis peu un jeu de données rassemblant des textes du domaine public, les leaders du domaine ne semblent pas s'être intéressés au sujet.
Le New-York Times explique qu'en 2021, face à ce problème, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour retranscrire des millions d'heures de vidéos de YouTube.
Mais les conditions d'utilisation de la plateforme affirment que « vous n'êtes pas autorisé à [...] accéder au Service par le biais de procédés automatisés (tels que les robots, botnets ou scrapers) sauf : (a) dans le cas des moteurs de recherche publics, en accord avec le fichier YouTube robots.txt ; (b) avec autorisation écrite préalable de YouTube, ou (c) lorsque la loi l’autorise ; ou (c) conformément à la loi applicable ». L'utilisation de Whisper par OpenAI contreviendrait donc à ces CGU.
Sora dans le viseur
La question ne se pose pas que pour l'entraînement de GPT-4. Mi-mars, Mira Murati, la responsable technique (CTO) d'OpenAI a évité les questions du Wall Street Journal sur l'éventuel entraînement de Sora, l'IA générative de vidéos de son entreprise, sur des données venant de YouTube.
Questionnée sur l'entraînement de l'outil, elle a répondu : « nous avons utilisé des données accessibles au public et des données sous licence ». Relancée plus précisément pour savoir si ces données incluaient des vidéos publiées sur YouTube, Instagram ou Facebook, Mira Murati a affirmé qu'elle ne le savait pas.
En réaction, Neal Mohan, CEO de YouTube a expliqué à Bloomberg qu'il ne savait pas si Sora était entraîné sur des données de sa plateforme, mais a averti que si c'était le cas, ça serait une violation claire de ses conditions d'utilisation.
Pour Neal Mohan, « du point de vue du créateur [ndlr : terme utilisé pour parler des youtubers], lorsqu'il met en ligne son travail sur notre plateforme, il a certaines attentes dont le respect des conditions d'utilisation. Celles-ci n'autorisent ni la transcription ni le téléchargement de vidéos ».
Le pré carré de Google
Ici, YouTube (qui fait partie du même groupe que Google) ne protège pas seulement le contenu de ses utilisateurs contre l'utilisation de leur contenu par d'autres entreprises. Elle défend aussi son pré carré. Si ses conditions d'utilisation interdisent à n'importe qui d'utiliser ces contenus, elles n'empêchent pas YouTube de le faire ou de l'autoriser.
L'année dernière, Google a aussi opportunément modifié ses conditions d'utilisation d'autres services en ligne comme Google Docs ou Google Maps pour récolter des données issues de ses utilisateurs. Le New-York Times explique que « selon des membres de l'équipe de protection de la vie privée de l'entreprise et un message interne consulté par le Times, l'une des motivations de ce changement était de permettre à Google d'exploiter les documents Google Docs accessibles au public, les critiques de restaurants sur Google Maps et d'autres documents en ligne pour un plus grand nombre de ses produits d'intelligence artificielle ».
L'entreprise a aussi précisé dans ses conditions d'utilisation de ses IA conserver les « conversations » des utilisateurs pour les faire « lire, annoter et traiter » par des relecteurs humains pour les ajouter à ses données d'entraînement.
IA générative : GPT-4 entrainé avec un million d’heures de vidéos YouTube
-
Recherche données d'entraînement désespérément
-
Sora dans le viseur
-
Le pré carré de Google
Commentaires (14)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 08/04/2024 à 15h03
Le 08/04/2024 à 19h00
Modifié le 08/04/2024 à 16h07
Le 08/04/2024 à 16h27
Le 08/04/2024 à 16h09
Le 08/04/2024 à 16h37
Le 09/04/2024 à 15h55
Le 09/04/2024 à 16h44
N'empêche, J. Calment, décédée en 1997, était ado (15 ans) en 1890, année de naissance de De Gaulle, à qui elle a survécu 27 ans ! À quoi rêvait-elle ? À la ligne bleue des Vosges ?
Le 08/04/2024 à 17h10
Le 11/04/2024 à 19h59
Le 08/04/2024 à 18h39
Le 08/04/2024 à 19h01
Le 09/04/2024 à 09h22
Le 09/04/2024 à 12h14