Abonnez-vous Connexion

Abonnez-vous

Nous suivre

À propos

Next, média indépendant, est soutenu par la société moji.

Elle lui assure une pérennité économique et lui permet de maintenir sa totale liberté éditoriale, d'expérimenter de nouvelles formes d'information et de garantir sa survie à long terme, sans dépendre d'annonceurs externes.

Le mot TikTok tapé sur une machine à écrire

CC BY 2.0 Markus Winkler / Markus119

OpenAI suspend le compte de ByteDance, qui utilisait son API pour entraîner son propre LLM

Par Flock

Le 18 Décembre 2023 à 06h23

1 min 9

CC BY 2.0 Markus Winkler / Markus119

The Verge révèle qu'OpenAI a suspendu le compte de ByteDance (la maison mère, chinoise, de TikTok), qui utilisait son API pour entraîner Project Seed, le nom de code de son propre modèle de langage, sur la plate-forme Azure de Microsoft.

Les conditions d'utilisation commerciale d'OpenAI stipulent en effet que les résultats de son modèle ne peuvent pas être utilisés « pour développer des modèles d'intelligence artificielle qui concurrencent ceux d'OpenAI ».

« Bien que l'utilisation de notre API par ByteDance soit minime, nous avons suspendu leur compte pendant que nous approfondissons notre enquête », explique Niko Felix, porte-parole d'OpenAI : « si nous découvrons que leur utilisation ne respecte pas ces politiques, nous leur demanderons d'apporter les modifications nécessaires ou de résilier leur compte ».

Granite : IBM lance son pavé dans la mare des modèles de langage pour la génération de code

Stack Overflow signe avec OpenAI

La RATP expérimente sa vidéosurveillance algorithmique pour les concerts de Taylor Swift

FurMark débarque en version 2.3, avec la prise en charge des Raspberry Pi

Boeing Starliner n’a finalement toujours pas décollé…

Chang’e 6 fait route vers la Lune, avec l’instrument français DORN

Pass Monitor : Proton Pass comble (enfin) certaines lacunes

Dirty Stream : quand une application Android peut écraser les fichiers d’une autre

Raspberry Pi Compute Module 4S : jusqu’à 8 Go de mémoire, production jusqu’en 2034

Calendrier de publication d’Ubuntu 24.10 (Oracular Oriole)

Commentaires (9)

SebGF Abonné

Le 18/12/2023 à 08h24

Détail intéressant pour une entreprise chinoise, Azure OpenAI Service n'est pas disponible dans les régions China East et China North.

https://azure.microsoft.com/en-us/explore/global-infrastructure/products-by-region/?products=cognitive-services&regions=non-regional,china-non-regional,china-east,china-east-2,china-east-3,china-north,china-north-2,china-north-3

Pour rappel, la région Azure China est opérée par un partenaire local (21Vianet).

Ils ont donc du utiliser d'autres régions du CSP.

Modifié le 18/12/2023 à 08h25

Wosgien Abonné

Le 18/12/2023 à 08h48

Il me semblait avoir lu qu'entraîner une IA à partir d'un IA est une pratique encore problématique.

B1gBr0ther Abonné

Le 18/12/2023 à 09h23

#2.1

pareil, ça se "dégrade" assez vite niveau qualité.

anagrys Abonné

Le 18/12/2023 à 09h34

#2.2

tout dépend de ce que tu mets derrière le mot "problématique" : si tu veux des résultats pas trop mauvais, il semble que ça ne soit effectivement pas terrible. Mais si tu t'en fiches et cherches juste à dire que toi aussi, tu as un modèle d'IA "révolutionnaire", pourquoi se priver

fdorin Abonné

Le 18/12/2023 à 09h37

#2.3

Il faut savoir précisément ce que l'on entend par "entrainer" :
- est-ce réaliser des jeux de données sur lesquels entrainer (= instruire) le modèle ?
- est-ce réaliser des jeux de données sur lesquels vérifier le résultat de l'entrainement (= examen) ?
- est-ce afin de comparer les performances entre modèles ?

Le point 1 est clairement celui qui est problématique.
Le point 2 peut l'être, ou non, en fonction de comment est utilisé le résultat. Si c'est juste pour avoir une évaluation (genre 90% des réponses sont correctes) mais sans se servir de ce feedback pour faire une boucle de rétro-action quelconque sur l'apprentissage, alors je ne pense pas que cela pose de problème particulier.
Le point 3 n'est pas problématique.

SebGF Abonné

Le 18/12/2023 à 10h21

#2.4

fdorin

Le 2 et 3 c'est justement ce qui est pratiqué à ma connaissance. Les modèles se challenge entre eux et se comparent, mais point d'entraînement (que ce soit plusieurs instances de GPT ou encore GPT + LLaMA par exemple).

Entraîner un modèle depuis les données d'un autre n'est, effectivement, pas la meilleure approche car les données se dégradent trop vite. C'est comme si on voulait entraîner de la reconnaissance visuelle en ne donnant à manger que des vieux JPG dégueulasses compressés en début 2000.

127.0.0.1

Le 18/12/2023 à 10h11

La data pour entrainer les IA, cette nouvelle ressource qui vaut de l'or.

SebGF Abonné

Le 18/12/2023 à 10h27

#3.1

Je dirais plutôt que l'IA, enfin, le machine learning, n'est qu'un énième lièvre à courir à la mode pour trouver un sens à la quantité massive de données produite sur les réseaux en vue de l'exploiter.

Comme la mode du BigData auparavant où tout le monde ne jurait que par cela et qu'après avoir accumulé des terabyte de data, on cherchait à savoir quoi en faire.

gg40 Abonné

Le 18/12/2023 à 12h22

#3.2

Tout à fait.
Il faut voir l’agressivité récente de leur bot d'exploration sur les serveurs d'hébergement.

Comprend pas à quoi ils jouent à ne respecter aucune règle (vitesse de crawl et respect de robots.txt) -> ban d'environs 12 000 IPs :(

Modifié le 18/12/2023 à 12h22

Fermer

❮

❯