Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

De l'or en Tube ?

IA générative : GPT-4 entrainé avec un million d’heures de vidéos YouTube

Deux requins étiquetés par portions avec les marques des entreprises d'IA génératives nagent dans l'océan

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

OpenAI aurait puisé dans les vidéos de YouTube pour se créer un corpus de données d'entraînement utilisé notamment pour GPT-4. La plateforme de vidéos en ligne rappelle que cette pratique est contraire à ses conditions d'utilisation.

Dans la série des données utilisées par les entreprises d'IA génératives, le dernier épisode est un peu singulier. Jusque-là, les conflits concernaient soit des artistes, soit des éditeurs comme le New-York Times. Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.

Selon des sources du New-York Times, justement, OpenAI aurait retranscrit plus d'un million d'heures de vidéos YouTube et les aurait ajoutées aux données d'entraînement de son modèle de langage GPT-4. Le conflit, ici, ne concerne pas le droit d'auteurs des vidéos, mais la violation des conditions d'utilisations de la plateforme de vidéos.

Recherche données d'entraînement désespérément

Pour entraîner leurs modèles de langage, les entreprises d'intelligences artificielles génératives ont besoin de quantités massives de données. Mais pour que les IA miment la création d'un texte écrit par un humain, ces données doivent aussi provenir de textes produits par des humains.

Si Wikipédia ou les « bibliothèques clandestines » comme LibGen sont connues comme des sources de ces différents modèles, chaque entreprise du domaine doit perpétuellement chercher de nouveaux filons de données pour enrichir ses modèles et les différencier de ceux des concurrents. S'il existe depuis peu un jeu de données rassemblant des textes du domaine public, les leaders du domaine ne semblent pas s'être intéressés au sujet.

Le New-York Times explique qu'en 2021, face à ce problème, OpenAI aurait utilisé son outil de reconnaissance vocale Whisper pour retranscrire des millions d'heures de vidéos de YouTube.

Mais les conditions d'utilisation de la plateforme affirment que « vous n'êtes pas autorisé à [...] accéder au Service par le biais de procédés automatisés (tels que les robots, botnets ou scrapers) sauf : (a) dans le cas des moteurs de recherche publics, en accord avec le fichier YouTube robots.txt ; (b) avec autorisation écrite préalable de YouTube, ou (c) lorsque la loi l’autorise ; ou (c) conformément à la loi applicable ». L'utilisation de Whisper par OpenAI contreviendrait donc à ces CGU.

Sora dans le viseur

La question ne se pose pas que pour l'entraînement de GPT-4. Mi-mars, Mira Murati, la responsable technique (CTO) d'OpenAI a évité les questions du Wall Street Journal sur l'éventuel entraînement de Sora, l'IA générative de vidéos de son entreprise, sur des données venant de YouTube.

Questionnée sur l'entraînement de l'outil, elle a répondu : « nous avons utilisé des données accessibles au public et des données sous licence ». Relancée plus précisément pour savoir si ces données incluaient des vidéos publiées sur YouTube, Instagram ou Facebook, Mira Murati a affirmé qu'elle ne le savait pas.

En réaction, Neal Mohan, CEO de YouTube a expliqué à Bloomberg qu'il ne savait pas si Sora était entraîné sur des données de sa plateforme, mais a averti que si c'était le cas, ça serait une violation claire de ses conditions d'utilisation.

Pour Neal Mohan, « du point de vue du créateur [ndlr : terme utilisé pour parler des youtubers], lorsqu'il met en ligne son travail sur notre plateforme, il a certaines attentes dont le respect des conditions d'utilisation. Celles-ci n'autorisent ni la transcription ni le téléchargement de vidéos ».

Le pré carré de Google

Ici, YouTube (qui fait partie du même groupe que Google) ne protège pas seulement le contenu de ses utilisateurs contre l'utilisation de leur contenu par d'autres entreprises. Elle défend aussi son pré carré. Si ses conditions d'utilisation interdisent à n'importe qui d'utiliser ces contenus, elles n'empêchent pas YouTube de le faire ou de l'autoriser.

L'année dernière, Google a aussi opportunément modifié ses conditions d'utilisation d'autres services en ligne comme Google Docs ou Google Maps pour récolter des données issues de ses utilisateurs. Le New-York Times explique que « selon des membres de l'équipe de protection de la vie privée de l'entreprise et un message interne consulté par le Times, l'une des motivations de ce changement était de permettre à Google d'exploiter les documents Google Docs accessibles au public, les critiques de restaurants sur Google Maps et d'autres documents en ligne pour un plus grand nombre de ses produits d'intelligence artificielle ».

L'entreprise a aussi précisé dans ses conditions d'utilisation de ses IA conserver les « conversations » des utilisateurs pour les faire « lire, annoter et traiter » par des relecteurs humains pour les ajouter à ses données d'entraînement.

Commentaires (14)


Mais ici, il oppose OpenAI à YouTube, la plateforme de vidéos et filiale de Google qui est aussi l'un des acteurs majeurs du secteur de l'IA générative. Et celui-ci entend bien protéger sa chasse gardée.


Si comme le sous-entend ce passage et d'autres parties de l'article, Google interdit l'utilisation des vidéos qu'il héberge aux apprentissages des IA de ses concurrents, n'y aurait-il pas concurrence déloyale et/ou abus de position dominante ?
Oh ça ne serait pas le genre de la maison.
Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣 Je me moque, mais je trouve tout ça tellement ridicule, et surtout vomitif. On observe des requins se battre pour savoir qui aura, au final, plus le droit de nous manger tout cru.
Modifié le 08/04/2024 à 16h07

Historique des modifications :

Posté le 08/04/2024 à 16h04


Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣

Posté le 08/04/2024 à 16h05


Contraire aux CGU, certes, mais quid du fair use (donc en accord avec la loi, et donc finalement avec ces mêmes CGU) si souvent invoqué par ces entreprises ? 🤣 Je me moque, mais je trouve tout ça tellement ridicule, et surtout vomitif. On observe des requins se battre pour savoir qui aura, au final, plus le droit de nous manger tout cru.

On peut choisir par qui être mangé, c'est déjà ça !
1M d'heures de visionnage! Le rêve secret de tout adolescent.
1M d'heures, c'est grosso-modo la vie de Jeanne Calment !

serpolet

1M d'heures, c'est grosso-modo la vie de Jeanne Calment !
Jeanne Calment serait le rêve secret de tout adolescent? :keskidit:

Jon Joe

Jeanne Calment serait le rêve secret de tout adolescent? :keskidit:
:mdr:

N'empêche, J. Calment, décédée en 1997, était ado (15 ans) en 1890, année de naissance de De Gaulle, à qui elle a survécu 27 ans ! À quoi rêvait-elle ? À la ligne bleue des Vosges ?
1M d'heures, ça paraît tellement énorme et tellement peu à la fois. J'espère au moins que les vidéos utilisées étaient un tant soit peu qualitatives.
Certainement, désormais GPT 4 sait que la terre est plate, que les vaccins changent notre ADN, que les chats sont nos dieux etc.
Comme ça, GPT-4 apprendra à faire du placement de produit déguisé :D
Ah bah au moins ça changera dans les réponses de ChatGPT ! Plutôt que de faire la morale à la fin de chaque résultat, il viendra dire "abonnez-vous et mettez un pouce".
L'IA du futur : "Abonnez vous, mettez la cloche, likez et n'oubliez pas d'utiliser un VPN"
Les pubs font aussi partie des données d'entraînement ? Parce que le résultat risque d'être très amusant. Il va recréer notre monde à la Demolition Man où tout le monde chante des spots publicitaires. :mdr:
Fermer