Connexion
Abonnez-vous

OpenAI lance son ChatGPT à l’assaut des autres applications sur ordinateur

Le confort, c'est le pouvoir

OpenAI lance son ChatGPT à l’assaut des autres applications sur ordinateur

Mojahid Mottakin – Unsplash

OpenAI a annoncé coup sur coup deux évolutions importantes pour ses applications de bureau. D’abord, une disponibilité générale de la version pour Windows, y compris pour les utilisateurs gratuits. Ensuite, la possibilité sur Mac de puiser du contexte dans plusieurs environnements de développement.

Le 15 novembre à 10h54

L'application Windows disponible pour tous

L’application a évolué durant la période de test. Elle dispose d’un plus grand nombre de fonctions, comme la possibilité d’utiliser la webcam de l’ordinateur pour prendre une photo et l’envoyer dans la conversation. De nouvelles options sont également apparues, comme le choix du raccourci pour appeler la fenêtre de l’application (Alt + Space par défaut) ou encore la possibilité de faire varier la taille du texte via les raccourcis Ctrl + et Ctrl -. On trouve aussi dans les paramètres un bouton pour vérifier la disponibilité d’une mise à jour.

Parmi les autres ajouts importants de ces derniers mois, l’application a reçu une barre latérale dans laquelle on peut fouiller l’historique de ses interactions avec ChatGPT. On peut bien sûr utiliser les derniers modèles de l’entreprise (dont 4o), mais de manière limitée. Même chose pour le mode vocal, apparu pendant la bêta : tout le monde peut l’utiliser, mais il y a une limite en version gratuite, qui disparait avec l’abonnement.

Les versions pour ordinateurs de bureau se récupèrent depuis le site officiel d'OpenAI.

Sur Mac, ChatGPT peut fouiller les IDE

Parallèlement, la version Mac de ChatGPT s’ouvre aux autres applications. Elle était sortie avant celle pour Windows et explore donc de nouveaux horizons. Comme OpenAI l’annonce dans un tweet, cette ouverture commence par plusieurs environnements de développement intégrés : VS Code, Xcode, Terminal et iTerm2.

La société montre quelques exemples dans une courte vidéo publiée sur X. On peut voir l’application ChatGPT aller puiser directement dans le code dans Xcode et s’en servir comme contexte. Il faut cependant cliquer sur l’onglet Xcode dans l’application pour qu’elle passe dans ce mode spécifique. Cliquer sur l’onglet permet à ChatGPT d’aller « lire » l’environnement de développement et de récupérer des informations.

Dans une autre démonstration faite à TechCrunch, une fenêtre Xcode contenait le code d’un programme modélisant le système solaire, mais avec des trous. Depuis ChatGPT, le développeur a demandé à ce que le code manquant soit ajouté pour modéliser les planètes absentes, ce que l’application a réussi à faire. Selon les cas, tout le code contenu dans la fenêtre principale est envoyé, ou seulement les 200 dernières lignes. On peut aussi surligner la partie du code que l’on estime intéressante pour que ChatGPT la priorise pour son contexte.

Uniquement du texte pour l'instant

Il y a cependant plusieurs limites actuellement, dont la plus importante : le code fourni par ChatGPT ne peut pas être envoyé dans l’environnement. Il faut donc le copier puis le coller pour le tester. Difficile donc pour l’instant de le comparer à des modules beaucoup plus intégrés comme le Copilot de GitHub ou Cursor. En outre, il n’est pas toujours possible pour ChatGPT d’aller lire directement dans un environnement. Dans le cas de Visual Studio Code, il faut installer une extension.

La « faute » au mécanisme que l’application ChatGPT utilise pour lire les informations sur Mac : le propre lecteur d’écran de macOS, une fonction d’accessibilité du système servant de base à VoiceOver. Comme l’indique TechCrunch, la fonction est généralement fiable, mais n’arrive parfois pas à lire les informations. En outre, elle est limitée au texte. ChatGPT, dans ses interactions avec les autres applications, ne peut donc puiser du contexte que dans l’écrit.

La fonction est nommée « Work with Apps » et doit à terme fonctionner avec n’importe quel type d’application. Les environnements de développement sont les premiers visés car ils sont l’un des scénarios les plus courants d’utilisation avec l’IA générative.

L'agent polyvalent, nouvelle frontière ?

Les interactions avec les autres applications semblent être la prochaine grande étape. Plusieurs approches sont possibles. OpenAI semble davantage s’orienter vers des agents, mais cela signifie travailler la compatibilité au cas par cas.

Mercredi, Bloomberg indiquait ainsi qu’OpenAI préparait un agent polyvalent nommé Operator. Il serait prévu pour 2025 et aurait pour mission de s’interfacer avec d’autres applications pour devenir une sorte d’aide pour de nombreuses activités. Un touche-à-tout qui entrerait alors en compétition avec d’autres tentatives dans ce domaine, notamment le dernier Claude 3.5 Sonnet, qui dispose d’un nouveau mécanisme en bêta nommé Computer Use. Ce dernier, passant par des captures temporaires, veut comprendre les demandes en analysant ce qui est présent dans l’écran, pour ensuite simuler des frappes au clavier ou des clics de souris.

Les avantages et inconvénients varient selon les approches. Celle d’Anthropic avec son dernier Claude est plus générale. Mais selon les données publiées par l’entreprise, même son dernier modèle n’est pas encore capable de prouesses dans la réalisation des tâches, puisque seuls 49 % des actions demandées sur l’écran ont abouti.

OpenAI ne donne pas de chiffre, mais il est probable qu’il soit bien plus élevé. Le mécanisme Work with Apps ne passe pas en effet par des captures et n’est donc pas tributaire d’une analyse d’images pour comprendre le contexte : les informations lui sont fournies par une API système. En contrepartie, OpenAI doit se contenter du texte, et uniquement à partir des applications dont la compatibilité a été spécifiquement travaillée, là où Anthropic peut « agir » sur tout ce qui est présent dans l’écran. En outre, OpenAI ne dit rien sur la disponibilité de Work with Apps sur Windows.

Sur ce dernier, Microsoft a d'ailleurs étrangement supprimé des capacités dans son application Copilot, comme nous l'avions noté dans notre article sur la mise à jour majeure 24H2. Il est probable que l'éditeur ait des plans en réserve

Commentaires (1)

votre avatar
Sérieusement, Alt+ espace en raccourci ? Et on va faire comment désormais pour gérer une fenêtre qui est hors de l'écran ou quand on a un souci de souris ? Ils auraient pu demander à Chat GPT quels raccourcis étaient disponibles...

OpenAI lance son ChatGPT à l’assaut des autres applications sur ordinateur

  • L'application Windows disponible pour tous

  • Sur Mac, ChatGPT peut fouiller les IDE

  • Uniquement du texte pour l'instant

  • L'agent polyvalent, nouvelle frontière ?

Fermer