OpenAI suspend le compte de ByteDance, qui utilisait son API pour entraîner son propre LLM

CC BY 2.0 Markus Winkler / Markus119
Le 18 décembre 2023 à 06h23
1 min
IA et algorithmes
IA
The Verge révèle qu'OpenAI a suspendu le compte de ByteDance (la maison mère, chinoise, de TikTok), qui utilisait son API pour entraîner Project Seed, le nom de code de son propre modèle de langage, sur la plate-forme Azure de Microsoft.
Les conditions d'utilisation commerciale d'OpenAI stipulent en effet que les résultats de son modèle ne peuvent pas être utilisés « pour développer des modèles d'intelligence artificielle qui concurrencent ceux d'OpenAI ».
« Bien que l'utilisation de notre API par ByteDance soit minime, nous avons suspendu leur compte pendant que nous approfondissons notre enquête », explique Niko Felix, porte-parole d'OpenAI : « si nous découvrons que leur utilisation ne respecte pas ces politiques, nous leur demanderons d'apporter les modifications nécessaires ou de résilier leur compte ».
Le 18 décembre 2023 à 06h23
Commentaires (9)
Abonnez-vous pour prendre part au débat
Déjà abonné ? Se connecter
Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.
Accédez en illimité aux articles
Profitez d’un média expert et unique
Intégrez la communauté et prenez part aux débats
Partagez des articles premium à vos contacts
Abonnez-vousModifié le 18/12/2023 à 08h25
Pour rappel, la région Azure China est opérée par un partenaire local (21Vianet).
Ils ont donc du utiliser d'autres régions du CSP.
Le 18/12/2023 à 08h48
Le 18/12/2023 à 09h23
Le 18/12/2023 à 09h34
Le 18/12/2023 à 09h37
- est-ce réaliser des jeux de données sur lesquels entrainer (= instruire) le modèle ?
- est-ce réaliser des jeux de données sur lesquels vérifier le résultat de l'entrainement (= examen) ?
- est-ce afin de comparer les performances entre modèles ?
Le point 1 est clairement celui qui est problématique.
Le point 2 peut l'être, ou non, en fonction de comment est utilisé le résultat. Si c'est juste pour avoir une évaluation (genre 90% des réponses sont correctes) mais sans se servir de ce feedback pour faire une boucle de rétro-action quelconque sur l'apprentissage, alors je ne pense pas que cela pose de problème particulier.
Le point 3 n'est pas problématique.
Le 18/12/2023 à 10h21
Entraîner un modèle depuis les données d'un autre n'est, effectivement, pas la meilleure approche car les données se dégradent trop vite. C'est comme si on voulait entraîner de la reconnaissance visuelle en ne donnant à manger que des vieux JPG dégueulasses compressés en début 2000.
Le 18/12/2023 à 10h11
Le 18/12/2023 à 10h27
Comme la mode du BigData auparavant où tout le monde ne jurait que par cela et qu'après avoir accumulé des terabyte de data, on cherchait à savoir quoi en faire.
Modifié le 18/12/2023 à 12h22
Il faut voir l’agressivité récente de leur bot d'exploration sur les serveurs d'hébergement.
Comprend pas à quoi ils jouent à ne respecter aucune règle (vitesse de crawl et respect de robots.txt) -> ban d'environs 12 000 IPs :(