IA générative : la course au plus gros modèle commence à montrer ses limites
IA pas que la taille qui compte
Les leaders de l'IA générative ont, depuis l'arrivée de ChatGPT, mené une course au plus gros modèle. Mais OpenAI et ses concurrents ont de plus en plus de mal à créer des modèles qui dépassent les performances de leurs précédents. La course à l'entrainement de modèles de plus en plus gros ne suffit plus.
Le 12 novembre à 17h30
5 min
IA et algorithmes
IA
Les entreprises de l'IA génératives qui se sont concentrées sur la création de modèles toujours plus gros pour toujours plus de capacités commencent à voir les limites de cette stratégie arriver.
Le média américain The Information raconte que le nouveau modèle d'OpenAI, Orion, dont la sortie a été annoncée pour décembre prochain par The Verge et immédiatement démenti par Sam Altman, devrait apporter à lui seul une augmentation de performance beaucoup moins importante que le saut qu'avait pu avoir lieu entre GPT-3 et GPT-4. Orion n'est pourtant pas une nouvelle version de GPT-4 comme GPT-4o mais vraiment un nouveau modèle de l'entreprise et pourrait donc être considéré comme GPT-5 (même si OpenAI ne le publiera peut-être pas sous cette nomenclature).
Un Orion moins géant que prévu
Nous savons depuis quelque temps que les benchmarks des modèles de langage nous désinforment et ont tendance à nous faire croire à une évolution difficile à mesurer. Mais certains chercheurs d'OpenAI, selon The Information, pensent que les performances d'Orion ne seront pas meilleures dans ces comparaisons de modèles pour certaines tâches comme la génération de code.
Comme le disent nos confrères, cela remet en cause l'application aux modèles de langage de ce que certains appellent les « lois d'échelle » (scaling laws). Celles-ci voudraient qu'en entrainant les modèles avec des données toujours plus importantes sur des machines de plus en plus puissantes, on obtiendrait forcément des modèles plus puissants. Tadao Nagasaki, responsable d'OpenAI au Japon, s'appuyait pourtant encore très récemment sur ces « lois d'échelle » pour vanter la progression inexorable des modèles de son entreprise.
Des ressources presque épuisées ?
Une des hypothèses évoquées pour expliquer ce ralentissement serait que les entreprises d'IA génératives ont déjà puisé dans les plus grosses sources de textes de qualité et finalement presque épuisé les ressources sur lesquelles elles comptaient pour améliorer indéfiniment leurs modèles.
Le problème pour OpenAI, dans ces circonstances, est qu'utiliser un modèle plus gros demande plus d'énergie et coûte inévitablement plus cher.
La destruction du mythe du « plus c’est gros, mieux c’est » était déjà bien entamée, mais l'élaboration d'Orion chez OpenAI semble bien la confirmer.
Interrogé par Reuters, Ilya Sutskever, co-fondateur d'OpenAI ensuite parti créer la Safe Superintelligence, confirme que, pour lui, l'intensification du pré-entrainement a maintenant atteint un plateau. Lui-même a pourtant plaidé longtemps pour s'appuyer sur toujours plus de données et de puissance de calcul pour faire progresser les IA génératives.
À notre niveau, nous avons également exploré la question de l’importance des données d’entrainement sur les IA et les dangers du surapprentissage. En faire toujours plus n’est effectivement pas synonyme d’être toujours meilleur, loin de là même.
- [Tuto] Intelligence artificielle : l’importance des données d’entrainement
- [Tuto] Intelligence artificielle : les dangers du surapprentissage, comment l’éviter
Des besoins d'optimisation
Ces entreprises prennent de plus en plus en compte d'autres techniques pour améliorer les réponses de leurs IA. Des chercheurs de Google et de l'université de Berkeley ont exploré cet été les moyens d'améliorer les performances des modèles pendant la phase d'inférence, c’est-à-dire après la phase d’entrainement, quand le modèle doit répondre à des questions des utilisateurs. Selon Reuters, la technique aurait été utilisée par OpenAI pour GPT-4o.
Ces entreprises essayaient déjà d'optimiser leurs modèles. Chez OpenAI, les sparse autoencoders, « méthode qui permet d'identifier une poignée de "caractéristiques" dans le réseau neuronal qui sont importantes pour produire un résultat donné », ont été utilisés pour optimiser les résultats de GPT-4, par exemple. Mais il semble que ces entreprises vont devoir redoubler d'effort et s'appuyer d'autant plus sur la recherche en cours pour améliorer les performances de leurs modèles.
Ce plafond de verre de la course aux modèles toujours plus gros pose aussi des questions sur la place de NVIDIA dans cette industrie. Cette course au « toujours plus » plaçait le producteur de GPU dans une situation idéale de pourvoyeur de puissance inévitable pour créer des modèles toujours plus puissants. Mais il est donc possible que les besoins en calcul ne suivent pas l'évolution prévue et que les espoirs de certains investisseurs soient quelque peu douchés.
IA générative : la course au plus gros modèle commence à montrer ses limites
-
Un Orion moins géant que prévu
-
Des ressources presque épuisées ?
-
Des besoins d'optimisation
Commentaires (11)
Vous devez être abonné pour pouvoir commenter.
Déjà abonné ? Se connecter
Abonnez-vousLe 12/11/2024 à 18h03
Le 12/11/2024 à 18h32
Le 12/11/2024 à 18h52
Le 12/11/2024 à 18h58
Se dire qu'on pourra toujours augmenter quelque chose dans un environnement finis est illusoire et stupide.
Le 13/11/2024 à 09h49
Modifié le 12/11/2024 à 19h08
On voit fleurir de plus en plus de LLM de petite taille, y compris chez les grands acteurs (Llama 3 a une version 1, 3, et 8b (et plus), tout comme phi de Microsoft est proposé en 3.8b et gemma 2 de Google en 2b). Ils sont forcément moins performants et moins polyvalents, mais peuvent servir de base d'entraînement pour faire du fine-tuning et de la spécialisation. Tout comme ils peuvent répondre à des tâches simples.
C'est un peu ce qu'on voit aussi avec Stable Diffusion ou le modèle de base est raffiné par la communauté pour produire des modèles spécialisés (mais aussi beaucoup de généralistes). Sans oublier bien sûr les LoRA ou ControlNet qui viennent enrichir les capacités.
La techno est encore jeune, donc elle va forcément passer par une phase de maturité et se transformer (ça me rappelle l'essor du smartphone en fait). Et OpenAI reste un nabot parmi les autres géants de la tech, donc il vaut mieux pour eux qu'ils rendent rapidement compte des limitations de la stratégie actuelle pour savoir comment se retourner. Avec Microsoft et Google qui développent leurs propres modèles (et Meta, évidemment, avec Llama) qui ont une très forte capacité de pénétration de marché, ils peuvent très rapidement se faire dépasser et rejoindre du jour au lendemain bon nombre d'acteurs de la Tech qui ont été sur les feux de la rampe quelques années avant de sombrer dans l'oubli.
Le 12/11/2024 à 21h33
https://epoch.ai/blog/data-movement-bottlenecks-scaling-past-1e28-flop
Le 13/11/2024 à 08h11
Le 13/11/2024 à 09h53
Le 13/11/2024 à 10h15
Le 13/11/2024 à 10h24
Pour les intéressés