Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?

5 ans de perroquets probabilistes

Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?

Le 05 avril 2023 à 06h49

Commentaires (22)

votre avatar

Merci pour cet article. Je l’aurais aimé plus long.
À noter que Nicolas Martin (ex. France Q) avait fait 2 superbes émission sur l’évolution des modèles de langage il y a 2 ans:
https://www.radiofrance.fr/franceculture/podcasts/la-methode-scientifique/parlez-vous-l-ordinateur-7914870
https://www.radiofrance.fr/franceculture/podcasts/la-methode-scientifique/traitement-automatique-des-langages-do-you-speak-computer-8285510.

votre avatar

Microsoft a Megatron, Meta a un Transformer, personne n’a de Decepticon ? :transpi:

votre avatar

Skynet

votre avatar

Si, notre gouvernement qui détruit nos acquis sociaux et brade des fleurons de notre industrie. Ils ont même une unité d’élite Decepti-cons, la division 49.3.
OK, je sors :)

votre avatar

darkjack a dit:


Si, notre gouvernement qui détruit nos acquis conquis sociaux et brade des fleurons de notre industrie. Ils ont même une unité d’élite Decepti-cons, la division 49.3. OK, je sors :)


:cap:

votre avatar

Est-ce que je me trompe si je dis que ce qui a surtout changé ces dernières années, ce sont les capacités de stockage et de traitement, et beaucoup moins l’algorithmie derrière tout ça ?
Parce qu’on a quand même à faire à un “truc” qui répond sincèrement à des questions sur les œufs de vache … Véridique, testé par un pote. Et ça me laisse sacrément dubitatif (non, Desproges l’a déjà faite celle-là).

votre avatar

Il y a aussi David Louapre (science étonnante) qui a fait de super vidéos sur le sujet (youtube)

votre avatar

Résumé intéressant sur l’évolution du domaine. A titre personnel j’ai longtemps considéré l’IA comme du bullshit car … ça en était. C’était juste des mises en scène, des situations bien cadrées pour s’assurer que le marketing fasse son effet, et dans la réalité ça ne produisait rien.



Avec les modèles de langage, j’ai l’impression qu’on assiste à un véritable tournant de l’IT car les outils d’analyse et génération de contenu plus ou moins complexe (texte / image / code, etc) rentrent dans le quotidien (pour le meilleur et pour le pire, comme d’hab). Certes, y’a encore du chemin, mais de ma petite expérience avec, je perçois la valeur ajoutée. Dans mes bricolages perso, travailler le code avec ChatGPT (car je suis pas dev) m’a pas mal aidé là où j’aurais passé des heures de recherche à droite et à gauche pour des résultats non garantis ou tellement datés qu’ils seraient inutiles. Ce qui m’a permis de me focaliser plutôt sur la logique, la construction, plutôt que sur savoir comment j’implémente tel truc dans tel langage. L’explication fournie avec est un plus pour comprendre le résultat produit.



Dans mon usage, j’apprécie le fait qu’il soit capable de produire un résultat correct assez rapidement, mais aussi sa capacité à produire plusieurs solutions différentes pour un besoin donné ou encore de faire une comparaison rapide pour des solutions permettant ainsi de balayer rapidement et aller plus vite dans le dur.




AncalagonTotof a dit:


Est-ce que je me trompe si je dis que ce qui a surtout changé ces dernières années, ce sont les capacités de stockage et de traitement, et beaucoup moins l’algorithmie derrière tout ça ? Parce qu’on a quand même à faire à un “truc” qui répond sincèrement à des questions sur les œufs de vache … Véridique, testé par un pote. Et ça me laisse sacrément dubitatif (non, Desproges l’a déjà faite celle-là).


Tout dépend de ce qu’on lui demande. Son but c’est de broder la suite d’un texte pour produire un truc cohérent. Si tu lui demandes un truc absurde, il va le faire.



Le plus important pour moi, c’est de savoir ce qu’on attend de ces outils. Perso ce que j’attends d’eux, c’est de me faire gagner du temps sur des tâches dont la valeur ajoutée, ou ne serait-ce que la motivation de les accomplir, est faible. Genre comparer les capacités de plusieurs solutions du marché… Ca prend un temps fou là où un outil de ce genre sera capable de te dresser les avantages/inconvénients en quelques secondes. Le plus difficile, c’est de lui fournir un prompt qui soit en relation avec le résultat attendu.

votre avatar

Dernièrement, je m’en suis servi pour générer une expression régulière, jamais eu la motivation d’apprendre la syntaxe. Le résultat n’est peut-être pas le plus efficace, mais ça fonctionne et ça m’a pris 2min. Alors que rechercher à la main sur stackoverflow pour bricoler un truc douteux à partir de 3 ou 4 post différents, c’est plus long et c’est chiant.



Je ne suis pas dev non plus, et cette capacité à générer un petit bout de code pour un cas simple, c’est quand même bien pratique.
Et même sur des sujets qu’on maitrise un peu plus, un 2e regard est appréciable, quand on a pas de collègue à qui demander, ça donne des idées.

votre avatar

Au cas ou, il existe des outils de ce style pour les expressions régulières.



Mais si ça permet d’en générer une qui fonctionne quand on lui parle en français c’est pas mal.

votre avatar

J’ai essayé de l’utiliser pour apprendre le Rust, bah il m’inventait des modules qui n’existent pas.
Pour les modules qui existaient il donnait des versions largement supérieures à celles qui sont sorties actuellement.
Et même sans ça, le code généré ne compilait quasiment jamais.



Y a encore du chemin à faire…

votre avatar

Attention c’est pas un prof infaillible, surtout avec ses données qui s’arrêtent à fin 2021. Par contre en testant et en lui donnant l’erreur, il se rend compte de sa connerie de mon expérience.



Sauf quand ça commence à démonter l’obsolescence de ses données. J’avais eu le coup avec le templating GoHugo où ce qu’il me proposait marchait à peu près mais un détail coinçait à cause de changements récents dans le moteur.

votre avatar

Entièrement d’accord avec toi, et j’en ai le même usage, cela me fait gagner un temps énorme.

votre avatar

De mon côté j’ai hâte que la version intégrant la sortie sur le Web arrive. Aujourd’hui il ne sait pas faire ça, et quand on lui demande de lire une page Web (ce qu’il ne peut pas faire, le modèle ne sait pas sortir sur Internet), il pipeaute comme jamais :D



Si tu lui donnes la page “Features” d’un produit, il va s’appuyer sur sa base de connaissance pour produire un résultat qui semble à priori fiable (il m’a même sorti la date prévisionnelle de la prochaine version de GitLab au pifomètre XD). Mais on repère vite le pot aux roses car les infos sont datées.



Par contre je lui ai mis le lien d’un article de mon blog et demandé de le résumer, il m’a extrapolé un truc complètement fumé juste en lisant l’URL :fume:



Après, il est possible de lui copier/coller le contenu et demander de le synthétiser / analyser ça il fait très bien.

votre avatar

les modèles « transformers », d’où GPT tire son T.



Generative Pre-Training, GPT


Faudrait savoir :transpi:



 



(En fait c’est « Generative Pre-trained Transformer »)

votre avatar

Le côté ouvert et l IA en général ont franchi un cap avec la release open source de Llama et les variantes apparues depuis.. et ça tourne en local! Par contre entraîner une IA sur mesure selon besoins spécifiques..

votre avatar

AncalagonTotof a dit:


Est-ce que je me trompe si je dis que ce qui a surtout changé ces dernières années, ce sont les capacités de stockage et de traitement, et beaucoup moins l’algorithmie derrière tout ça ?


Non, c’est bien l’idée. La disponibilité de grands jeux de données aussi. Il n’y a pas beaucoup de nouveauté en informatique depuis les années 1970.

votre avatar

Merci pour cet article.



Je vais peut être paraître nombriliste, mais la lecture de cet article me fait penser que ces IA rédigent leurs textes (je parle de la forme, pas du fond) de la même façon que je le fais.



Je suis totalement impermeable aux règles de grammaire.
Je suis, comme tout le monde capable de les apprendre et de les réciter par coeur.
Mais, quand on me demande pourquoi j’écris une phrase comme je le fais, je suis incapable de l’expliquer.
Cela ne m’empêche pas de ne pas être ridicule aux dictées de Pivot ou aux examens Voltaire.



La seule façon que j’ai d’expliquer comment je m’y prends est que j’ai une bonne mémoire visuelle et que je fus, et suis encore, un lecteur assidu.
Par conséquent, j’ai forcément rencontré à un moment, une tournure de phrase, une formulation qui colle au contexte de la phrase que je dois écrire.
On peut appeler cela une certaine forme d’autisme, mais tant que ça marche, pourquoi ne pas en tirer avantage ?



Ce “modèle”, à priori appliqué par Chat-GPT pour la rédaction de texte, permet d’obtenir des textes écrits en bon français, même si le contenu pondu par les “IA” est parfois complètement farfelu.
Il ne reste plus qu’à trouver comment y ajouter un peu de bon sens et de discrimination (appelons ça intelligence) pour pouvoir créer, enfin, des outils qui pourront se goinfrer les montagnes de données disséminées sur le web et en obtenir un “résumé” digeste pour les humains.



P.S.
Promis, juré, crois de bois, croix de fer, je n’ai pas utilisé Chat-GPT pour rédiger ce post :windu:

votre avatar

D’où le nom réseau neuronal, ces IA reproduisent le fonctionnement des neurones dans un cerveau. Quand un bébé apprend à marcher ou parler, c’est exactement le même principe que l’entrainement d’un réseau neuronal, on ne lui apprend pas des règles logiques : tendre les pieds, placer son centre de gravité au milieu de sa surface de contact au sol… Le bébé apprend par essai, sans comprendre vraiment comment faire, une fois acquis c’est un automatisme.
Une IA c’est pareil sauf que c’est un humain qui note chaque action, alors que le bébé s’autoentraine jusqu’à marcher !
Pour le langage, c’est similaire : on apprend d’abord à parler tout seul par auto entrainement, puis on apprend à lire. Une fois la lecture acquise, on peut raisonner sur les mots et expliquer la grammaire, l’étymologie et expliquer les règles d’un langage qu’on a appris seul.

votre avatar

SebGF a dit:


Attention c’est pas un prof infaillible, surtout avec ses données qui s’arrêtent à fin 2021. Par contre en testant et en lui donnant l’erreur, il se rend compte de sa connerie de mon expérience.


Oui, quand je lui dit que le module n’existe pas, il en invente un second…

votre avatar

Le coquinou :D

votre avatar

Mihashi a dit:


Oui, quand je lui dit que le module n’existe pas, il en invente un second…


Oui clairement GPT ne connait que les langages informatiques ultraconnu (Python par ex), pour des trucs plus chiadés, c’est complètement naze. Pour moi en tant que développeur, ChatGPT est une perte de temps : au même titre que Stack Overflow qui sort majoritairement des trucs bancals, voire faux.

Des recherches des années 50 à GPT-4 en passant par BERT, quelles évolutions amènent les grands modèles de langage ?

  • T comme « transformeur »

  • P comme « pré-entraîné »

  • BERT déjà dans le moteur de recherche de Google

  • Un modèle encyclopédique

  • Des modèles de moins en moins ouverts

Fermer