Connexion
Abonnez-vous

IA générative : la course au plus gros modèle commence à montrer ses limites

IA pas que la taille qui compte

IA générative : la course au plus gros modèle commence à montrer ses limites

Les leaders de l'IA générative ont, depuis l'arrivée de ChatGPT, mené une course au plus gros modèle. Mais OpenAI et ses concurrents ont de plus en plus de mal à créer des modèles qui dépassent les performances de leurs précédents. La course à l'entrainement de modèles de plus en plus gros ne suffit plus.

Le 12 novembre à 17h30

Les entreprises de l'IA génératives qui se sont concentrées sur la création de modèles toujours plus gros pour toujours plus de capacités commencent à voir les limites de cette stratégie arriver.

Le média américain The Information raconte que le nouveau modèle d'OpenAI, Orion, dont la sortie a été annoncée pour décembre prochain par The Verge et immédiatement démenti par Sam Altman, devrait apporter à lui seul une augmentation de performance beaucoup moins importante que le saut qu'avait pu avoir lieu entre GPT-3 et GPT-4. Orion n'est pourtant pas une nouvelle version de GPT-4 comme GPT-4o mais vraiment un nouveau modèle de l'entreprise et pourrait donc être considéré comme GPT-5 (même si OpenAI ne le publiera peut-être pas sous cette nomenclature).

Un Orion moins géant que prévu

Nous savons depuis quelque temps que les benchmarks des modèles de langage nous désinforment et ont tendance à nous faire croire à une évolution difficile à mesurer. Mais certains chercheurs d'OpenAI, selon The Information, pensent que les performances d'Orion ne seront pas meilleures dans ces comparaisons de modèles pour certaines tâches comme la génération de code.

Comme le disent nos confrères, cela remet en cause l'application aux modèles de langage de ce que certains appellent les « lois d'échelle » (scaling laws). Celles-ci voudraient qu'en entrainant les modèles avec des données toujours plus importantes sur des machines de plus en plus puissantes, on obtiendrait forcément des modèles plus puissants. Tadao Nagasaki, responsable d'OpenAI au Japon, s'appuyait pourtant encore très récemment sur ces « lois d'échelle » pour vanter la progression inexorable des modèles de son entreprise.

Des ressources presque épuisées ?

Une des hypothèses évoquées pour expliquer ce ralentissement serait que les entreprises d'IA génératives ont déjà puisé dans les plus grosses sources de textes de qualité et finalement presque épuisé les ressources sur lesquelles elles comptaient pour améliorer indéfiniment leurs modèles.

Le problème pour OpenAI, dans ces circonstances, est qu'utiliser un modèle plus gros demande plus d'énergie et coûte inévitablement plus cher.

La destruction du mythe du « plus c’est gros, mieux c’est » était déjà bien entamée, mais l'élaboration d'Orion chez OpenAI semble bien la confirmer.

Interrogé par Reuters, Ilya Sutskever, co-fondateur d'OpenAI ensuite parti créer la Safe Superintelligence, confirme que, pour lui, l'intensification du pré-entrainement a maintenant atteint un plateau. Lui-même a pourtant plaidé longtemps pour s'appuyer sur toujours plus de données et de puissance de calcul pour faire progresser les IA génératives.

À notre niveau, nous avons également exploré la question de l’importance des données d’entrainement sur les IA et les dangers du surapprentissage. En faire toujours plus n’est effectivement pas synonyme d’être toujours meilleur, loin de là même.

Des besoins d'optimisation

Ces entreprises prennent de plus en plus en compte d'autres techniques pour améliorer les réponses de leurs IA. Des chercheurs de Google et de l'université de Berkeley ont exploré cet été les moyens d'améliorer les performances des modèles pendant la phase d'inférence, c’est-à-dire après la phase d’entrainement, quand le modèle doit répondre à des questions des utilisateurs. Selon Reuters, la technique aurait été utilisée par OpenAI pour GPT-4o.

Ces entreprises essayaient déjà d'optimiser leurs modèles. Chez OpenAI, les sparse autoencoders, « méthode qui permet d'identifier une poignée de "caractéristiques" dans le réseau neuronal qui sont importantes pour produire un résultat donné », ont été utilisés pour optimiser les résultats de GPT-4, par exemple. Mais il semble que ces entreprises vont devoir redoubler d'effort et s'appuyer d'autant plus sur la recherche en cours pour améliorer les performances de leurs modèles.

Ce plafond de verre de la course aux modèles toujours plus gros pose aussi des questions sur la place de NVIDIA dans cette industrie. Cette course au « toujours plus » plaçait le producteur de GPU dans une situation idéale de pourvoyeur de puissance inévitable pour créer des modèles toujours plus puissants. Mais il est donc possible que les besoins en calcul ne suivent pas l'évolution prévue et que les espoirs de certains investisseurs soient quelque peu douchés.

Le 12 novembre à 17h30

Commentaires (11)

Vous devez être abonné pour pouvoir commenter.

Abonnez-vous
votre avatar
Ouh là ! Chute de NVIDIA en bourse en perspective ! Vendez !
votre avatar
Imaginez un jour une course à l'utilisation utile de l'IA.
votre avatar
Pas besoin, il y en a déjà (la générative, et la discipline en général liée au ML, c'est utilisé depuis des années en fait).
votre avatar
Tiens donc je sors ma boite à "Ça alors". Comme quoi on peut être capable de manipuler des concepts dépassant de loin les capacités du commun des mortels et est bête à bouffer du foin.

Se dire qu'on pourra toujours augmenter quelque chose dans un environnement finis est illusoire et stupide.
votre avatar
Faudra juste le rappeler aux capitalistes. Il semblerait qu'ils ne l'aient toujours pas compris.
votre avatar
L'idée des gros modèles monolithiques ne me semble pas viable dans le temps. Que ce soit pour les LLM ou les modèles de diffusion, je crois plus en des modèles plus petits et spécialisés et autonomes que du gros machin à tout faire. En gros, l'idée de l'architecture micro service, ou ce bon vieux principe du KISS.

On voit fleurir de plus en plus de LLM de petite taille, y compris chez les grands acteurs (Llama 3 a une version 1, 3, et 8b (et plus), tout comme phi de Microsoft est proposé en 3.8b et gemma 2 de Google en 2b). Ils sont forcément moins performants et moins polyvalents, mais peuvent servir de base d'entraînement pour faire du fine-tuning et de la spécialisation. Tout comme ils peuvent répondre à des tâches simples.

C'est un peu ce qu'on voit aussi avec Stable Diffusion ou le modèle de base est raffiné par la communauté pour produire des modèles spécialisés (mais aussi beaucoup de généralistes). Sans oublier bien sûr les LoRA ou ControlNet qui viennent enrichir les capacités.

La techno est encore jeune, donc elle va forcément passer par une phase de maturité et se transformer (ça me rappelle l'essor du smartphone en fait). Et OpenAI reste un nabot parmi les autres géants de la tech, donc il vaut mieux pour eux qu'ils rendent rapidement compte des limitations de la stratégie actuelle pour savoir comment se retourner. Avec Microsoft et Google qui développent leurs propres modèles (et Meta, évidemment, avec Llama) qui ont une très forte capacité de pénétration de marché, ils peuvent très rapidement se faire dépasser et rejoindre du jour au lendemain bon nombre d'acteurs de la Tech qui ont été sur les feux de la rampe quelques années avant de sombrer dans l'oubli.
votre avatar
Un article lié que j'ai vu passer récemment sur Hacker News: « Data Movement Bottlenecks to Large-Scale Model Training: Scaling Past 1e28 FLOP »

https://epoch.ai/blog/data-movement-bottlenecks-scaling-past-1e28-flop
votre avatar
Un peu relou l’ia a toutes les sauces, tous les jours, partout, pour tout..
votre avatar
Elon Musk nommé par Donald Trump à la tête d'un ministère de l'"efficacité gouvernementale" :D
votre avatar
Idiocracy In Real Life
votre avatar

IA générative : la course au plus gros modèle commence à montrer ses limites

  • Un Orion moins géant que prévu

  • Des ressources presque épuisées ?

  • Des besoins d'optimisation

Fermer