GPT-3.5 et GPT-4 régresseraient-ils ?

Ptêt' ben qu'oui...

GPT-3.5 et GPT-4 régresseraient-ils ?

Le 21 juillet 2023 à 14h19

Commentaires (18)

votre avatar

GPT4 qui était vraiment impressionnant est devenu moins bon que GPT3.5 pour de nombreuses tâches. La régression est claire quand on l’utilise régulièrement.

votre avatar

cela reste qu’une hypothèse basée sur une corrélation.


Ah bah si on a le droit de faire une hypothèse basée sur une corrélation…




Concernant les réponses aux questions dites « sensibles », ils constatent que GPT-4 a tendance à moins y répondre en juin (5 %) qu’en mars (21 %),


… je propose d’envisager que l’amélioration du “political correctness” ait un peu cassé les performances.

votre avatar

Il m’a fallu au moins 5 bonnes minutes avant de comprendre en quoi consistait le test de raisonnement visuel. L’exemple est vraiment pas clair du tout.

votre avatar

J’ai pas compris non plus (et j’ai un peu la flemme de chercher :transpi:), ça consiste en quoi ?

votre avatar

Ça va, moi j’ai trouvé la solution en 5 secondes. En revanche, je me demande bien comment on fait pour faire rentrer ça dans un prompt, texte par définition.

votre avatar

Demander des opérations mathématiques à GPT n’est pas une très bonne idée car il n’est pas bon de base dans ce domaine. Même si ça montre effectivement une régression.



Je pense que l’une des causes de ces régressions, ce sont les innombrables bridages imposés au modèle pour diverses raisons. Cela se constate ironiquement avec les modèles de génération d’image de StableDiffusion. Les modèles entraînés en mode puritain sont moins précis sur le rendu que les modèles intégrant de la nudité qui contiennent mécaniquement plus d’informations anatomiques.



C’est le reproche que j’ai constaté quelques temps après avoir commencé à appréhender ChatGPT : ses bridages font qu’il est moins bon. En soit, il n’y a rien de surprenant, brider la créativité rend forcément les choses fades. Au même titre que les textes qu’il génère sont chiants à mourir car policés de manière à ne froisser personne, marchant sur des oeufs, tout en étant pompeux et trop verbeux. Perso je préfère la façon dont le chatbot IA qu’Infomaniak a intégré à kChat répond : il est simple et concis, pas besoin d’en faire des tonnes.



Et ça c’est pas un problème inhérent à GPT mais bel et bien la façon dont OpenAI a configuré ChatGPT. Sur ce point, les solutions exploitant commercialement GPT donnent un peu plus de maitrise au client sur le comportement du modèle.

votre avatar

(reply:2143934:127.0.0.1) une hypothèse n’est justement qu’une hypothèse et pas une affirmation scientifique. En clair, ils se posent la question de la relation cause-conséquence suite à la constation de cette corrélation. Pas plus.


votre avatar

Pour voir s’il était futé, j’ai demandé à ChatGPT quel est le mâle de la chaise. Il m’a répondu que c’est le fauteuil.

votre avatar

Dans la langue française, les objets ne sont pas caractérisés par le genre de la même manière que les animaux ou les êtres humains. Par conséquent, un fauteuil n’est pas considéré comme le “mâle” d’une chaise.



En fait, une chaise et un fauteuil sont deux types de sièges différents. Une chaise est généralement un siège à quatre pieds conçu pour une seule personne, sans accoudoirs. Un fauteuil, en revanche, est un siège plus large et plus confortable, généralement doté de accoudoirs.



Cependant, il est possible que cette affirmation ait été faite en plaisantant ou de manière métaphorique, en suggérant qu’un fauteuil est une version plus “grande” ou “plus robuste” d’une chaise, tout comme un mâle est souvent plus grand ou plus robuste qu’une femelle dans de nombreuses espèces animales. Mais cela n’est pas une règle ou une norme linguistique établie.



moi ca m’va comme réponse ;)

votre avatar

GPT n’est pas du genre à avoir de l’humour, et il ne comprend pas spécialement bien les intonations ironiques ou humoristiques du prompt (par contre il sait le générer si on lui demande). Donc une réponse de ce genre dépend avant tout du contexte du prompt qui a orienté la génération de tokens.

votre avatar

(quote:2143937:Martin Clavey)
une hypothèse n’est justement qu’une hypothèse et pas une affirmation scientifique. En clair, ils se posent la question de la relation cause-conséquence suite à la constation de cette corrélation. Pas plus.


L’hypothèse des chercheurs c’est qu’il y un lien entre la verbosité de la réponse affichée et l’exactitude du résultat. Bref,



Réponse affichée moins longue => moins d’étapes de raisonnement en interne => raccourcis foireux dans le raisonnement => résultat incorrect.



Mais est-ce que la longueur de la réponse affichée est vraiment un indicateur des étapes de raisonnement en interne du LLM ?
C’était un truc facile a vérifier, et ils ne l’ont pas fait. Dommage.

votre avatar

Qu’on appellerai IA Dégénératives

votre avatar

cognitys a dit:


moi ca m’va comme réponse ;)


C’est marrant, je viens de ré-essayer, et j’obtiens une réponse du style de la tienne. Je n’arrive plus à avoir celle que j’avais eue en premier. On dirait qu’il apprend.

votre avatar

J’utilise la version 3.5 pour du code. Après il faut être conscient que c’est souvent du mauvais code, par contre l’architecture est bonne, faut juste corriger ensuite.

votre avatar

Thoscellen a dit:


Qu’on appellerai IA Dégénératives


Parfait !!

votre avatar

Je serais refait si c’est utilisé en sous-titre d’un prochain article sur le sujet :p

votre avatar

Mihashi a dit:


J’ai pas compris non plus (et j’ai un peu la flemme de chercher :transpi:), ça consiste en quoi ?


Découpe le carré noir en 3 colonnes

votre avatar

Merci, je cherchais trop compliqué en pensant qu’il y avait une suite dans chaque ligne de gros carrés…

GPT-3.5 et GPT-4 régresseraient-ils ?

  • Comparaison sur différentes tâches

  • Une chaine de pensée potentiellement problématique

  • Du code moins directement exécutable

  • Un manque de transparence flagrant

Fermer