GPT-3.5 et GPT-4 régresseraient-ils ?

Ptêt' ben qu'oui...

GPT-3.5 et GPT-4 régresseraient-ils ?

GPT-3.5 et GPT-4 régresseraient-ils ?

Abonnez-vous pour tout dévorer et ne rien manquer.

Déjà abonné ? Se connecter

Abonnez-vous

Alors que des utilisateurs des modèles de langages d'OpenAI GPT-3.5 et 4 commençaient à se demander si leurs outils perdaient en acuité, des chercheurs de Stanford et Berkeley ont comparé leurs performances entre mars et juin 2023.

Les grands modèles de langage popularisés par ChatGPT sont souvent utilisés via leurs API, parce qu'ils ont encore besoin de puissance pour tourner mais aussi, tout simplement, parce que leurs sources ne sont pas diffusées pour une bonne partie d'entre eux.

C'est notamment le cas pour les populaires GPT-3.5 et GPT-4, modèles de langages utilisés par ChatGPT. Leurs utilisateurs n'ont pas la main dessus et ne peuvent que les interroger. Or, depuis quelque temps, certains se demandaient si les performances de ces deux modèles ne baissaient pas.

Le problème est que personne, à part OpenAI, ne sait réellement comment et quand leur base de connaissances est mise à jour. L'entreprise leader du marché est aussi la plus discrète sur son outil. Cette discrétion a d'ailleurs poussé Google à demander à ses chercheurs de ne pas publier leurs travaux tant qu'ils n'étaient pas déjà utilisés par l'entreprise.

Du côté de Meta, de façon assez inhabituelle, les équipes de recherche de Yann Lecun jouent les bons élèves de l'open source en publiant tous leurs modèles. Mais aucun d'entre eux ne divulgue clairement les corpus sur lesquels ils entrainent leurs outils. Il n'y a guère que le modèle BLOOM qui essaye de respecter au mieux les canons de la science ouverte (open science).

Il est donc difficile de se faire sa propre idée des performances de ces outils et de savoir dans quelles mesures ils s'améliorent ou s'ils régressent.

Comparaison sur différentes tâches

James Zou et ingjiao Chen, deux chercheurs de l'Université de Stanford, ont collaboré avec le chercheur de Berkeley et cofondateur de la startup Databricks Matei Zaharia pour évaluer les évolutions des réponses de GPT-3.5 et GPT-4 au fil du temps, et ont mis en ligne [PDF] leur étude sur le site de prépublication arXiv.

Passant comme tout utilisateur par l'API de ChatGPT, ils ont testé les versions de mars et juin 2023 en leur posant diverses questions comme la résolution de problèmes de maths, répondre à des questions sur des sujets sensibles, la génération de code ou de « raisonnement visuel », des tâches fréquemment utilisées pour évaluer les performances de ce genre d'intelligence artificielle.

« Notre objectif ici n'est pas de fournir une évaluation globale, mais de démontrer qu'il existe une dérive substantielle des performances de ChatGPT pour des tâches simples », expliquent-ils.

Évaluation GPT IA Crédits : Lingjiao Chen, Matei Zaharia, James Zou

Ils ont, par exemple, regardé si un code généré par le modèle de langage était directement exécutable, si les réponses à une question de maths étaient exactes. Mais ils ont aussi fait attention à des choses secondaires dans les résultats, comme la longueur d'une réponse ou l'acuité du raisonnement proposé.

Une chaine de pensée potentiellement problématique

Dans leur étude, ils observent que, sur une tâche de résolution mathématique comme celle d'identifier si un nombre est premier ou non, la précision de GPT-4 s'effondre entre mars et juin de 97 % à 2 % alors que celle de GPT-3.5 augmente de 7 % à 86 %. Ces résultats sont corrélés avec une réponse beaucoup plus courte de GPT-4 alors que GPT-3.5, au contraire, propose une réponse plus longue.

Les chercheurs font l'hypothèse que, lorsque le modèle produit une chaîne de pensée cohérente (et donc suffisamment longue pour l'être), la réponse est généralement meilleure. Mais cela reste qu'une hypothèse basée sur une corrélation.

Concernant les réponses aux questions dites « sensibles », ils constatent que GPT-4 a tendance à moins y répondre en juin  (5 %) qu'en mars (21 %), alors que GPT-3.5 y répond plus en juin (8 %) qu'en mars (2 %). GPT-4 a aussi tendance à s'expliquer de manière plus succincte quand il refuse de répondre.

En juin, GPT-4 semblait contrer plus facilement les attaques contre ce système, bridant les réponses de ChatGPT. Seulement 31 % des attaques dites de « jailbreaking » testées par les chercheurs arrivaient à passer outre alors qu'en mars, 78 % y parvenaient. Pour GPT-3.5, l'écart n'est pas assez signifiant pour repérer une évolution : la plupart des attaques fonctionnent toujours sur cette version.

Du code moins directement exécutable

Ayant créé une nouvelle base de données de code pour tester spécifiquement les grands modèles de langage, les trois chercheurs ont pu repérer que de mars à juin, le code généré par la version 4 comme par la version 3.5 de GPT était beaucoup moins souvent directement exécutable. Ils avancent l'hypothèse que ChatGPT, dans les deux versions, génèrerait plus de textes n'étant pas du code (notamment des commentaires). Ces parties entraineraient potentiellement des problèmes de syntaxe.

Concernant les tâches de raisonnement visuel (dont un exemple est présenté ci-dessous), les chercheurs n'ont pas constaté d'évolution significative.

Évaluation GPT IA 2 Crédits : Lingjiao Chen, Matei Zaharia, James Zou

On peut donc dire que cette étude a tendance à donner raison à certaines critiques se plaignant d'une évolution des performances de ces modèles n'allant pas toujours vers les résultats attendus, contrairement à ce que martelait encore la semaine dernière l'un des vice-présidents d'OpenAI, Peter Welinder, sur Twitter :

« Non, nous n'avons pas rendu le GPT-4 plus stupide. Bien au contraire : nous rendons chaque nouvelle version plus intelligente que la précédente.

Hypothèse actuelle : lorsque vous l'utilisez plus intensément, vous commencez à remarquer des problèmes que vous n'aviez pas vus auparavant. »

Logan Kilpatrick, responsable des relations avec les développeurs chez OpenAI, a d'ailleurs répondu à Matei Zaharia sur Twitter, après la mise en ligne de l'article, que « l'équipe est au courant des régressions signalées et les examine ».

Certains chercheurs émettent des critiques sur l'étude depuis qu'elle a été mise en ligne. Arvind Narayanan, professeur au Princeton Center for Information Technology Policy, trouve surtout qu'elle peut être mal interprétée : « l'article montre un changement de comportement, pas une diminution des capacités. Et il y a un problème avec l'évaluation - sur une tâche, nous pensons que les auteurs ont confondu mimétisme et raisonnement », renvoyant à son billet pour de plus amples détails.

Un manque de transparence flagrant

L'étude ne donne guère de réponses précises sur les évolutions des modèles d'OpenAI. En revanche, elle montre les problèmes dus au manque de transparence vis-à-vis de ces modèles.

Interrogé par Ars Technica, le développeur Simon Willison exprime très bien le problème : « comment sommes-nous censés construire un logiciel fiable sur une plateforme qui change de manière mystérieuse et non documentée tous les quelques mois ? ».

En publiant ChatGPT en premier, OpenAI a été capable de se hisser au premier rang des leaders de l'intelligence artificielle. Mais son manque de transparence risque de lui faire perdre la confiance des utilisateurs professionnels qui ne peuvent pas bâtir de solutions stables pour les produits dérivés de sa solution. Ceux-ci se tourneront-ils vers des solutions open source ?

Commentaires (18)


GPT4 qui était vraiment impressionnant est devenu moins bon que GPT3.5 pour de nombreuses tâches. La régression est claire quand on l’utilise régulièrement.



cela reste qu’une hypothèse basée sur une corrélation.




Ah bah si on a le droit de faire une hypothèse basée sur une corrélation…




Concernant les réponses aux questions dites « sensibles », ils constatent que GPT-4 a tendance à moins y répondre en juin (5 %) qu’en mars (21 %),




… je propose d’envisager que l’amélioration du “political correctness” ait un peu cassé les performances.


Il m’a fallu au moins 5 bonnes minutes avant de comprendre en quoi consistait le test de raisonnement visuel. L’exemple est vraiment pas clair du tout.


J’ai pas compris non plus (et j’ai un peu la flemme de chercher :transpi:), ça consiste en quoi ?


Mihashi

J’ai pas compris non plus (et j’ai un peu la flemme de chercher :transpi:), ça consiste en quoi ?


Ça va, moi j’ai trouvé la solution en 5 secondes. En revanche, je me demande bien comment on fait pour faire rentrer ça dans un prompt, texte par définition.


Demander des opérations mathématiques à GPT n’est pas une très bonne idée car il n’est pas bon de base dans ce domaine. Même si ça montre effectivement une régression.



Je pense que l’une des causes de ces régressions, ce sont les innombrables bridages imposés au modèle pour diverses raisons. Cela se constate ironiquement avec les modèles de génération d’image de StableDiffusion. Les modèles entraînés en mode puritain sont moins précis sur le rendu que les modèles intégrant de la nudité qui contiennent mécaniquement plus d’informations anatomiques.



C’est le reproche que j’ai constaté quelques temps après avoir commencé à appréhender ChatGPT : ses bridages font qu’il est moins bon. En soit, il n’y a rien de surprenant, brider la créativité rend forcément les choses fades. Au même titre que les textes qu’il génère sont chiants à mourir car policés de manière à ne froisser personne, marchant sur des oeufs, tout en étant pompeux et trop verbeux. Perso je préfère la façon dont le chatbot IA qu’Infomaniak a intégré à kChat répond : il est simple et concis, pas besoin d’en faire des tonnes.



Et ça c’est pas un problème inhérent à GPT mais bel et bien la façon dont OpenAI a configuré ChatGPT. Sur ce point, les solutions exploitant commercialement GPT donnent un peu plus de maitrise au client sur le comportement du modèle.



(reply:2143934:127.0.0.1) une hypothèse n’est justement qu’une hypothèse et pas une affirmation scientifique. En clair, ils se posent la question de la relation cause-conséquence suite à la constation de cette corrélation. Pas plus.



Pour voir s’il était futé, j’ai demandé à ChatGPT quel est le mâle de la chaise. Il m’a répondu que c’est le fauteuil.


Dans la langue française, les objets ne sont pas caractérisés par le genre de la même manière que les animaux ou les êtres humains. Par conséquent, un fauteuil n’est pas considéré comme le “mâle” d’une chaise.



En fait, une chaise et un fauteuil sont deux types de sièges différents. Une chaise est généralement un siège à quatre pieds conçu pour une seule personne, sans accoudoirs. Un fauteuil, en revanche, est un siège plus large et plus confortable, généralement doté de accoudoirs.



Cependant, il est possible que cette affirmation ait été faite en plaisantant ou de manière métaphorique, en suggérant qu’un fauteuil est une version plus “grande” ou “plus robuste” d’une chaise, tout comme un mâle est souvent plus grand ou plus robuste qu’une femelle dans de nombreuses espèces animales. Mais cela n’est pas une règle ou une norme linguistique établie.



moi ca m’va comme réponse ;)


cognitys

Dans la langue française, les objets ne sont pas caractérisés par le genre de la même manière que les animaux ou les êtres humains. Par conséquent, un fauteuil n’est pas considéré comme le “mâle” d’une chaise.



En fait, une chaise et un fauteuil sont deux types de sièges différents. Une chaise est généralement un siège à quatre pieds conçu pour une seule personne, sans accoudoirs. Un fauteuil, en revanche, est un siège plus large et plus confortable, généralement doté de accoudoirs.



Cependant, il est possible que cette affirmation ait été faite en plaisantant ou de manière métaphorique, en suggérant qu’un fauteuil est une version plus “grande” ou “plus robuste” d’une chaise, tout comme un mâle est souvent plus grand ou plus robuste qu’une femelle dans de nombreuses espèces animales. Mais cela n’est pas une règle ou une norme linguistique établie.



moi ca m’va comme réponse ;)


GPT n’est pas du genre à avoir de l’humour, et il ne comprend pas spécialement bien les intonations ironiques ou humoristiques du prompt (par contre il sait le générer si on lui demande). Donc une réponse de ce genre dépend avant tout du contexte du prompt qui a orienté la génération de tokens.



(quote:2143937:Martin Clavey)
une hypothèse n’est justement qu’une hypothèse et pas une affirmation scientifique. En clair, ils se posent la question de la relation cause-conséquence suite à la constation de cette corrélation. Pas plus.




L’hypothèse des chercheurs c’est qu’il y un lien entre la verbosité de la réponse affichée et l’exactitude du résultat. Bref,



Réponse affichée moins longue => moins d’étapes de raisonnement en interne => raccourcis foireux dans le raisonnement => résultat incorrect.



Mais est-ce que la longueur de la réponse affichée est vraiment un indicateur des étapes de raisonnement en interne du LLM ?
C’était un truc facile a vérifier, et ils ne l’ont pas fait. Dommage.


Qu’on appellerai IA Dégénératives



cognitys a dit:


moi ca m’va comme réponse ;)




C’est marrant, je viens de ré-essayer, et j’obtiens une réponse du style de la tienne. Je n’arrive plus à avoir celle que j’avais eue en premier. On dirait qu’il apprend.


J’utilise la version 3.5 pour du code. Après il faut être conscient que c’est souvent du mauvais code, par contre l’architecture est bonne, faut juste corriger ensuite.



Thoscellen a dit:


Qu’on appellerai IA Dégénératives




Parfait !!


Je serais refait si c’est utilisé en sous-titre d’un prochain article sur le sujet :p



Mihashi a dit:


J’ai pas compris non plus (et j’ai un peu la flemme de chercher :transpi:), ça consiste en quoi ?




Découpe le carré noir en 3 colonnes


Merci, je cherchais trop compliqué en pensant qu’il y avait une suite dans chaque ligne de gros carrés…


Fermer