IA générative : GPT-4 entrainé avec un million d’heures de vidéos YouTube

De l'or en Tube ?

OpenAI aurait puisé dans les vidéos de YouTube pour se créer un corpus de données d'entraînement utilisé notamment pour GPT-4. La plateforme de vidéos en ligne rappelle que cette pratique est contraire à ses conditions d'utilisation.

Martin Clavey

Le 08 avril 2024 à 14h48

5 min

IA et algorithmes

Dans la série des données utilisées par les entreprises d'IA génératives, le dernier épisode est un peu singulier. Jusque-là, les conflits concernaient soit des artistes, soit des éditeurs comme le New-York Times. Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.

Selon des sources du New-York Times, justement, OpenAI aurait retranscrit plus d'un million d'heures de vidéos YouTube et les aurait ajoutées aux données d'entraînement de son modèle de langage GPT-4. Le conflit, ici, ne concerne pas le droit d'auteurs des vidéos, mais la violation des conditions d'utilisations de la plateforme de vidéos.

Neurone, inférence, entraînement, hallucination… de quoi on parle ?

Recherche données d'entraînement désespérément

Pour entraîner leurs modèles de langage, les entreprises d'intelligences artificielles génératives ont besoin de quantités massives de données. Mais pour que les IA miment la création d'un texte écrit par un humain, ces données doivent aussi provenir de textes produits par des humains.

Si Wikipédia ou les « bibliothèques clandestines » comme LibGen sont connues comme des sources de ces différents modèles, chaque entreprise du domaine doit perpétuellement chercher de nouveaux filons de données pour enrichir ses modèles et les différencier de ceux des concurrents. S'il existe depuis peu un jeu de données rassemblant des textes du domaine public, les leaders du domaine ne semblent pas s'être intéressés au sujet.

- Common Corpus : des textes du domaine public pour entrainer des IA (génératives)

Le New-York Times explique qu'en 2021, face à ce problème, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour retranscrire des millions d'heures de vidéos de YouTube.

Mais les conditions d'utilisation de la plateforme affirment que « vous n'êtes pas autorisé à [...] accéder au Service par le biais de procédés automatisés (tels que les robots, botnets ou scrapers) sauf : (a) dans le cas des moteurs de recherche publics, en accord avec le fichier YouTube robots.txt ; (b) avec autorisation écrite préalable de YouTube, ou (c) lorsque la loi l’autorise ; ou (c) conformément à la loi applicable ». L'utilisation de Whisper par OpenAI contreviendrait donc à ces CGU.

Sora dans le viseur

La question ne se pose pas que pour l'entraînement de GPT-4. Mi-mars, Mira Murati, la responsable technique (CTO) d'OpenAI a évité les questions du Wall Street Journal sur l'éventuel entraînement de Sora, l'IA générative de vidéos de son entreprise, sur des données venant de YouTube.

- Sora : OpenAI fait des vidéos

Questionnée sur l'entraînement de l'outil, elle a répondu : « nous avons utilisé des données accessibles au public et des données sous licence ». Relancée plus précisément pour savoir si ces données incluaient des vidéos publiées sur YouTube, Instagram ou Facebook, Mira Murati a affirmé qu'elle ne le savait pas.

En réaction, Neal Mohan, CEO de YouTube a expliqué à Bloomberg qu'il ne savait pas si Sora était entraîné sur des données de sa plateforme, mais a averti que si c'était le cas, ça serait une violation claire de ses conditions d'utilisation.

Pour Neal Mohan, « du point de vue du créateur [ndlr : terme utilisé pour parler des youtubers], lorsqu'il met en ligne son travail sur notre plateforme, il a certaines attentes dont le respect des conditions d'utilisation. Celles-ci n'autorisent ni la transcription ni le téléchargement de vidéos ».

Le pré carré de Google

Ici, YouTube (qui fait partie du même groupe que Google) ne protège pas seulement le contenu de ses utilisateurs contre l'utilisation de leur contenu par d'autres entreprises. Elle défend aussi son pré carré. Si ses conditions d'utilisation interdisent à n'importe qui d'utiliser ces contenus, elles n'empêchent pas YouTube de le faire ou de l'autoriser.

L'année dernière, Google a aussi opportunément modifié ses conditions d'utilisation d'autres services en ligne comme Google Docs ou Google Maps pour récolter des données issues de ses utilisateurs. Le New-York Times explique que « selon des membres de l'équipe de protection de la vie privée de l'entreprise et un message interne consulté par le Times, l'une des motivations de ce changement était de permettre à Google d'exploiter les documents Google Docs accessibles au public, les critiques de restaurants sur Google Maps et d'autres documents en ligne pour un plus grand nombre de ses produits d'intelligence artificielle ».

L'entreprise a aussi précisé dans ses conditions d'utilisation de ses IA conserver les « conversations » des utilisateurs pour les faire « lire, annoter et traiter » par des relecteurs humains pour les ajouter à ses données d'entraînement.

- Gemini : Google conserve des « conversations » et les fait analyser par des humains

Commentaires (14)

fred42 Abonné

Le 08/04/2024 à 15h03

Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.

Si comme le sous-entend ce passage et d'autres parties de l'article, Google interdit l'utilisation des vidéos qu'il héberge aux apprentissages des IA de ses concurrents, n'y aurait-il pas concurrence déloyale et/ou abus de position dominante ?

SebGF Abonné

Le 08/04/2024 à 19h00

Oh ça ne serait pas le genre de la maison.

Éloquent-Perroquet-performant

Modifié le 08/04/2024 à 16h07

Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣 Je me moque, mais je trouve tout ça tellement ridicule, et surtout vomitif. On observe des requins se battre pour savoir qui aura, au final, plus le droit de nous manger tout cru.

eglyn Abonné

Le 08/04/2024 à 16h27

On peut choisir par qui être mangé, c'est déjà ça !

Wosgien Abonné

Le 08/04/2024 à 16h09

1M d'heures de visionnage! Le rêve secret de tout adolescent.

serpolet Abonné

Le 08/04/2024 à 16h37

1M d'heures, c'est grosso-modo la vie de Jeanne Calment !

Jon Joe Abonné

Le 09/04/2024 à 15h55

Jeanne Calment serait le rêve secret de tout adolescent?

serpolet Abonné

Le 09/04/2024 à 16h44

N'empêche, J. Calment, décédée en 1997, était ado (15 ans) en 1890, année de naissance de De Gaulle, à qui elle a survécu 27 ans ! À quoi rêvait-elle ? À la ligne bleue des Vosges ?

Daïmanu Abonné

Le 08/04/2024 à 17h10

1M d'heures, ça paraît tellement énorme et tellement peu à la fois. J'espère au moins que les vidéos utilisées étaient un tant soit peu qualitatives.

Alianirah Abonné

Le 11/04/2024 à 19h59

Certainement, désormais GPT 4 sait que la terre est plate, que les vaccins changent notre ADN, que les chats sont nos dieux etc.

alex.d. Abonné

Le 08/04/2024 à 18h39

Comme ça, GPT-4 apprendra à faire du placement de produit déguisé

SebGF Abonné

Le 08/04/2024 à 19h01

Ah bah au moins ça changera dans les réponses de ChatGPT ! Plutôt que de faire la morale à la fin de chaque résultat, il viendra dire "abonnez-vous et mettez un pouce".

Heretron Abonné

Le 09/04/2024 à 09h22

L'IA du futur : "Abonnez vous, mettez la cloche, likez et n'oubliez pas d'utiliser un VPN"

Inny Abonné

Le 09/04/2024 à 12h14

Les pubs font aussi partie des données d'entraînement ? Parce que le résultat risque d'être très amusant. Il va recréer notre monde à la Demolition Man où tout le monde chante des spots publicitaires.