IA générative : la course au plus gros modèle commence à montrer ses limites

IA pas que la taille qui compte

Les leaders de l'IA générative ont, depuis l'arrivée de ChatGPT, mené une course au plus gros modèle. Mais OpenAI et ses concurrents ont de plus en plus de mal à créer des modèles qui dépassent les performances de leurs précédents. La course à l'entrainement de modèles de plus en plus gros ne suffit plus.

Martin Clavey

Le 12 novembre 2024 à 17h30

5 min

IA et algorithmes

Les entreprises de l'IA génératives qui se sont concentrées sur la création de modèles toujours plus gros pour toujours plus de capacités commencent à voir les limites de cette stratégie arriver.

Le média américain The Information raconte que le nouveau modèle d'OpenAI, Orion, dont la sortie a été annoncée pour décembre prochain par The Verge et immédiatement démenti par Sam Altman, devrait apporter à lui seul une augmentation de performance beaucoup moins importante que le saut qu'avait pu avoir lieu entre GPT-3 et GPT-4. Orion n'est pourtant pas une nouvelle version de GPT-4 comme GPT-4o mais vraiment un nouveau modèle de l'entreprise et pourrait donc être considéré comme GPT-5 (même si OpenAI ne le publiera peut-être pas sous cette nomenclature).

Un Orion moins géant que prévu

Nous savons depuis quelque temps que les benchmarks des modèles de langage nous désinforment et ont tendance à nous faire croire à une évolution difficile à mesurer. Mais certains chercheurs d'OpenAI, selon The Information, pensent que les performances d'Orion ne seront pas meilleures dans ces comparaisons de modèles pour certaines tâches comme la génération de code.

Raisonnement des IA génératives : les benchmarks nous désinforment

Comme le disent nos confrères, cela remet en cause l'application aux modèles de langage de ce que certains appellent les « lois d'échelle » (scaling laws). Celles-ci voudraient qu'en entrainant les modèles avec des données toujours plus importantes sur des machines de plus en plus puissantes, on obtiendrait forcément des modèles plus puissants. Tadao Nagasaki, responsable d'OpenAI au Japon, s'appuyait pourtant encore très récemment sur ces « lois d'échelle » pour vanter la progression inexorable des modèles de son entreprise.

Des ressources presque épuisées ?

Une des hypothèses évoquées pour expliquer ce ralentissement serait que les entreprises d'IA génératives ont déjà puisé dans les plus grosses sources de textes de qualité et finalement presque épuisé les ressources sur lesquelles elles comptaient pour améliorer indéfiniment leurs modèles.

Le problème pour OpenAI, dans ces circonstances, est qu'utiliser un modèle plus gros demande plus d'énergie et coûte inévitablement plus cher.

La destruction du mythe du « plus c’est gros, mieux c’est » était déjà bien entamée, mais l'élaboration d'Orion chez OpenAI semble bien la confirmer.

IA : la déconstruction du mythe du « plus c’est gros, mieux c’est »

Interrogé par Reuters, Ilya Sutskever, co-fondateur d'OpenAI ensuite parti créer la Safe Superintelligence, confirme que, pour lui, l'intensification du pré-entrainement a maintenant atteint un plateau. Lui-même a pourtant plaidé longtemps pour s'appuyer sur toujours plus de données et de puissance de calcul pour faire progresser les IA génératives.

À notre niveau, nous avons également exploré la question de l’importance des données d’entrainement sur les IA et les dangers du surapprentissage. En faire toujours plus n’est effectivement pas synonyme d’être toujours meilleur, loin de là même.

Des besoins d'optimisation

Ces entreprises prennent de plus en plus en compte d'autres techniques pour améliorer les réponses de leurs IA. Des chercheurs de Google et de l'université de Berkeley ont exploré cet été les moyens d'améliorer les performances des modèles pendant la phase d'inférence, c’est-à-dire après la phase d’entrainement, quand le modèle doit répondre à des questions des utilisateurs. Selon Reuters, la technique aurait été utilisée par OpenAI pour GPT-4o.

Ces entreprises essayaient déjà d'optimiser leurs modèles. Chez OpenAI, les sparse autoencoders, « méthode qui permet d'identifier une poignée de "caractéristiques" dans le réseau neuronal qui sont importantes pour produire un résultat donné », ont été utilisés pour optimiser les résultats de GPT-4, par exemple. Mais il semble que ces entreprises vont devoir redoubler d'effort et s'appuyer d'autant plus sur la recherche en cours pour améliorer les performances de leurs modèles.

Ce plafond de verre de la course aux modèles toujours plus gros pose aussi des questions sur la place de NVIDIA dans cette industrie. Cette course au « toujours plus » plaçait le producteur de GPU dans une situation idéale de pourvoyeur de puissance inévitable pour créer des modèles toujours plus puissants. Mais il est donc possible que les besoins en calcul ne suivent pas l'évolution prévue et que les espoirs de certains investisseurs soient quelque peu douchés.

Commentaires (11)

Abonnez-vous pour prendre part au débat

Déjà abonné ? Se connecter

Cet article est en accès libre, mais il est le fruit du travail d'une rédaction qui ne travaille que pour ses lecteurs, sur un média sans pub et sans tracker. Soutenez le journalisme tech de qualité en vous abonnant.

Accédez en illimité aux articles

Profitez d’un média expert et unique

Intégrez la communauté et prenez part aux débats

Partagez des articles premium à vos contacts

Abonnez-vous

iMaman Abonné

Le 12/11/2024 à 18h03

Ouh là ! Chute de NVIDIA en bourse en perspective ! Vendez !

sephirostoy Abonné

Le 12/11/2024 à 18h32

Imaginez un jour une course à l'utilisation utile de l'IA.

SebGF Abonné

Le 12/11/2024 à 18h52

Pas besoin, il y en a déjà (la générative, et la discipline en général liée au ML, c'est utilisé depuis des années en fait).

scandinave Abonné

Le 12/11/2024 à 18h58

Tiens donc je sors ma boite à "Ça alors". Comme quoi on peut être capable de manipuler des concepts dépassant de loin les capacités du commun des mortels et est bête à bouffer du foin.

Se dire qu'on pourra toujours augmenter quelque chose dans un environnement finis est illusoire et stupide.

Gilbert_Gosseyn Abonné

Le 13/11/2024 à 09h49

Faudra juste le rappeler aux capitalistes. Il semblerait qu'ils ne l'aient toujours pas compris.

SebGF Abonné

Modifié le 12/11/2024 à 19h08

L'idée des gros modèles monolithiques ne me semble pas viable dans le temps. Que ce soit pour les LLM ou les modèles de diffusion, je crois plus en des modèles plus petits et spécialisés et autonomes que du gros machin à tout faire. En gros, l'idée de l'architecture micro service, ou ce bon vieux principe du KISS.

On voit fleurir de plus en plus de LLM de petite taille, y compris chez les grands acteurs (Llama 3 a une version 1, 3, et 8b (et plus), tout comme phi de Microsoft est proposé en 3.8b et gemma 2 de Google en 2b). Ils sont forcément moins performants et moins polyvalents, mais peuvent servir de base d'entraînement pour faire du fine-tuning et de la spécialisation. Tout comme ils peuvent répondre à des tâches simples.

C'est un peu ce qu'on voit aussi avec Stable Diffusion ou le modèle de base est raffiné par la communauté pour produire des modèles spécialisés (mais aussi beaucoup de généralistes). Sans oublier bien sûr les LoRA ou ControlNet qui viennent enrichir les capacités.

La techno est encore jeune, donc elle va forcément passer par une phase de maturité et se transformer (ça me rappelle l'essor du smartphone en fait). Et OpenAI reste un nabot parmi les autres géants de la tech, donc il vaut mieux pour eux qu'ils rendent rapidement compte des limitations de la stratégie actuelle pour savoir comment se retourner. Avec Microsoft et Google qui développent leurs propres modèles (et Meta, évidemment, avec Llama) qui ont une très forte capacité de pénétration de marché, ils peuvent très rapidement se faire dépasser et rejoindre du jour au lendemain bon nombre d'acteurs de la Tech qui ont été sur les feux de la rampe quelques années avant de sombrer dans l'oubli.

plopl Abonné

Le 12/11/2024 à 21h33

Un article lié que j'ai vu passer récemment sur Hacker News: « Data Movement Bottlenecks to Large-Scale Model Training: Scaling Past 1e28 FLOP »

https://epoch.ai/blog/data-movement-bottlenecks-scaling-past-1e28-flop

coco74

Le 13/11/2024 à 08h11

Un peu relou l’ia a toutes les sauces, tous les jours, partout, pour tout..

Timanu69

Le 13/11/2024 à 09h53

Elon Musk nommé par Donald Trump à la tête d'un ministère de l'"efficacité gouvernementale"

coco74

Le 13/11/2024 à 10h15

Idiocracy In Real Life

Timanu69

Le 13/11/2024 à 10h24

https://www.oxtorrent.gy/detail/16187-
Pour les intéressés

IA générative : la course au plus gros modèle commence à montrer ses limites

Un Orion moins géant que prévu
Des ressources presque épuisées ?
Des besoins d'optimisation

Catégories

Nous Suivre

À propos

IA générative : la course au plus gros modèle commence à montrer ses limites