Connexion Premium

Anthropic tous azimuts : Haiku 4.5, connecteur 365, Agent Skills et partenariat Salesforce

Agent Skills vs Agent Smith

Anthropic tous azimuts : Haiku 4.5, connecteur 365, Agent Skills et partenariat Salesforce

Anthropic

Anthropic a procédé à plusieurs annonces autour de ses modèles Claude. D’abord, l’arrivée d’une version 4.5 de Haiku, son modèle plus léger. Ensuite, le lancement d’une intégration dans Microsoft 365. Enfin, la possibilité d’ajouter des Skills pour renforcer la précision des modèles dans des tâches spécifiques.

Le 15 octobre, Anthropic a présenté la dernière version de son modèle le plus petit, Haiku. Ces modèles sont souvent attendus, car ils permettent en général une baisse significative de l’énergie nécessaire pour l’inférence, au prix d’une baisse plus ou moins contenue de la précision. 

Dans le cas de Haiku 4.5, presque un an après la précédente mouture du modèle (3.5), Anthropic revendique des résultats similaires à son grand frère Sonnet 4, mais pour « un tiers du coût et une rapidité multipliée par deux ». On peut aussi espérer une baisse de consommation électrique lors de l’inférence.

Petit pimousse

Sans surprise, l’entreprise met en avant le développement logiciel, avec un score de 73,3 % sur SWE-bench Verified. Un score inférieur à Sonnet 4.5 (77,2 %) et GPT-5 Codex (74,5 %), mais supérieur à Sonnet 4 (72,7 %), à la version classique de GPT-5 (72,8 %) et Gemini 2.5 Pro (67,2 %).

Dans son tableau de scores, Anthropic montre surtout que son Haiku 4.5 est meilleur que Sonnet 4 dans pratiquement tous les domaines. Sonnet 4.5 garde bien sûr la couronne, mais Haiku présente un gros avantage sur le prix : 1 dollar le million de jetons en entrée et 5 dollars par million de jetons en sortie.

Selon Anthropic, Haiku 4.5 est le modèle idéal pour les versions gratuites d’essai d’applications ou services. Sa taille réduite permet l’exécution de plusieurs agents Haiku en parallèle ou dans des scénarios présentant une puissance limitée ou une sensibilité à la latence.

« Historiquement, les modèles ont sacrifié la vitesse et le cout pour la qualité. Claude Haiku 4.5 brouille les lignes sur ce compromis : il s’agit d’un modèle de frontière rapide qui maintient l’efficacité des couts et signale la direction que prend cette classe de modèles », a déclaré Jeff Wang, CEO de Windsurf. Chez GitHub, le chef de produit Matthew Isabel évoque lui aussi « une qualité comparable à celle de Sonnet 4, mais à une vitesse plus rapide ».

Intégration à Microsoft 365

Anthropic fournit désormais son propre connecteur pour Microsoft 365, via MCP. Pour l’instant, ce connecteur permet de mettre en contact les services suivants avec Claude :

  • SharePoint et OneDrive : recherche et analyse de documents
  • Outlook : accès aux fils de discussions, analyse de modèles de communication et extraction d’informations depuis les correspondances
  • Teams : recherche et analyse dans les conversations et résumés de réunion, suivi des projets et mise en lumière de décisions

Le connecteur peut également être utilisé pour créer une réserve de toutes les informations librement accessibles en interne pour obtenir un catalogue de ressources. Anthropic donne l’exemple d’une personne qui poserait alors une question sur la position de son entreprise sur le travail à distance et obtiendrait une réponse basée sur les documents issus des ressources humaines.

Le nouveau connecteur n’est disponible que pour les personnes ayant un abonnement Claude Team ou Enterprise. Pour ce dernier, les administrateurs doivent avoir activé le connecteur dans l’ensemble de l’organisation avant que les utilisateurs individuels puissent s’en servir.

Claude peut utiliser des Skills

Pour les personnes n’ayant que faire d’une intégration à Microsoft 365, Anthropic vient d’annoncer une nouveauté à fort potentiel : les Agents Skills. De manière générale, il s’agit de renforcer Claude sur des tâches spécialisées à l’aide de fichiers spécifiques.

Anthropic indique dans son billet de blog que l’on peut désigner à Claude un dossier contenant diverses ressources, comme des scripts, des fichiers contenant des instructions, des modèles ou encore un exemple de ce que l’on peut obtenir. On peut demander à l’IA de s’en servir pour accomplir des tâches spécifiques plus rapidement ou en orientant les résultats de manière précise.

Selon l’entreprise, les Skills permettraient à Claude d’être beaucoup plus efficace sur des missions particulières, comme la création de tableaux Excel avec des formules, la préparation de présentations, ou encore un respect plus strict des directives de l’organisation sur sa marque.

Anthropic évoque également un système de « composition », qui permet à Claude de gérer plusieurs sources de Skills pour des flux de travail plus complexes. Les Skills sont aussi « portables », car une fois créées, elles peuvent être partagées avec d’autres personnes ou structures, sans modification.

Au sein des entreprises, la fonction doit avoir été activée par les administrateurs. Côté utilisateurs, il faut en outre se rendre dans les paramètres de Claude pour activer les Skills. Par défaut, Claude n’en propose qu’une, qui pose des questions sur le flux de travail de l’utilisateur, génère une structure de dossiers, regroupe les ressources pointées et formatera un fichier SKILL.md en conséquence.

Les Skills pourront également être intégrées dans des plugins et donc récupérables depuis la place de marché d’Anthropic. Elles sont en outre disponibles pour les agents, via le SDK Claude Agent, toujours dans l’idée de personnaliser leur fonctionnement.

Un partenariat avec Salesforce

Anthropic et Salesforce viennent de signer un important partenariat autour de Claude, qui marque une victoire pour Anthropic. Salesforce va en effet positionner Claude comme modèle de référence dans sa plateforme Agentforce (via Amazon Bedrock), « permettant aux clients de Salesforce dans les secteurs des services financiers, de la santé, de la cybersécurité et des sciences de la vie d’utiliser une IA de confiance tout en assurant la sécurité des données sensibles », claironne Anthropic.

S’agissant de secteurs réglementés, l’utilisation de Claude se fait dans une infrastructure spécifique. L’exécution du LLM se fait au sein du « périmètre de confiance » de Salesforce. Tout le trafic lié est en fait contenu dans le cloud virtuel privé de Salesforce.

Les deux sociétés renforcent également l’utilisation de leurs outils respectifs. Salesforce va ainsi déployer Claude Code pour l’ensemble de ses développeurs, tandis qu’Anthropic va renforcer son utilisation de Slack. Pour les clients, les intégrations bidirectionnelles Claude et Slack viennent d’être mises à disposition.

Elles vont aussi collaborer sur des solutions IA spécifiques à l’industrie, à commencer par le secteur financier avec l’intégration de Claude for Financial Services dans Agentforce Financial Services. « Par exemple, un conseiller financier utilisant Agentforce peut demander à son agent IA, propulsé par Claude, de résumer les portefeuilles des clients, de signaler les nouvelles exigences de l’industrie affectant les régimes de retraite et d’automatiser le suivi du consentement et la sensibilisation des clients », indique Anthropic en exemple.

Commentaires (8)

votre avatar
Alors, retour d'expérience.

-Claude ça fonctionne, mais... Code dégueulasse, dette technique énorme, et absence du respect des conventions. (Sur PHP j'ai eu droit à un fichier de plus de 6500 lignes... Qu'il a été incapable de modifier en raison de la taille de contexte limite au bout d'un moment, ni de factoriser correctement, au lieu d'avoir tout répartit sur plusieurs classes/méthodes dans différents fichiers, c'est dire !)
-GPT5-Codex fonctionne beaucoup mieux, bien que beaucoup plus lent, code propre, commenté, et ce que j'ai trouvé de mieux jusqu'ici.
-Gemini 2.5 Pro malgré le score est de très loin inférieur à ces deux là sauf pour de petites retouches, il faut deux à trois fois plus de temps pour réussir à parvenir aux mêmes résultats.
-Deepseek-R1, Supernova Grock4, Qwen3-coder-plus sont des blagues et sont bien pour écrire à moindre coût/ressources, pas pour raisonner et établir un plan développement. Supernova est par contre excellent pour l'analyse de données, y compris d'un code source.

Pour du débogage, GPT5-thinking (réflexion profonde) est le roi, surtout si on croise les mêmes questions avec les deux autres, jusqu'à, par un échange interposés de ces derniers, obtenir un alignement.
votre avatar
je n'ai pas la même expérience ici avec du C# et avec claude code c'est juste une dinguerie...
votre avatar
je précise quand meme que je lui demande de bosser à partir d'un codebase solide et non pas de m'inventer une app, je pense que ca fait une énorme différence.
votre avatar
J'ai globalement le même avis concernant Claude et Codex. Mais je ne suis pas aussi catégorique 😅

Codex est clairement au-dessus quand il s'agit d'analyse de bug, où il faut une compréhension d'un contexte fonctionnel et technique... où il faut de la "réflexion".
La qualité de code est, aussi, bien meilleure pour du PHP (pour du backend).

Par contre Sonnet, 4 ou 4.5, va peut-être moins exceller sur ces mémés contraintes et être (beaucoup) plus verbeux en terme de code.
Mais bien cadré, avec des changements précis à faire, je le trouve tout aussi efficace et plus rapide.
De plus il va avoir de meilleurs performances sur du développement frontend je trouve.

Personnellement je mêle les deux modèles selon les besoins.
Et j'utilise majoritairement gpt-5-mini (en high reasonning) pour la partie plan. Sauf si trop technique, auquel cas je délègue à Sonnet 4.5 (Opus étant bien trop coûteux en terme de prix ou de quota Copilot).
votre avatar
Je bosse avec Claude Code et voilà qq réflexions :

  • Si pas de MCP possible, lui donner la doc en .md sur les produits qu'il doit utiliser.

  • mettre les contraintes / flux de travail etc. dans le fichier CLAUDE.md qui est "lu" à chaque session (garder ce fichier le plus propre et concis possible).

  • passer en mode plan et itérer jusqu'à ce que tu sois d'accord avec ce qu'il va effectivement faire

  • faire des sessions les plus courtes possibles, ne pas mixer les objectifs.

  • Malheureusement, je dois le regarder travailler et valider les modifs car effectivement des fois il fait de la merde :)

votre avatar
En code je sais pas mais en capacité "linguistiques" en français, Haiku 4.5 est à la ramasse. Assez rapidement, il se met à mettre des mots en anglais un peu partout aléatoirement, et pas des anglicismes communs hein : des mots dont il est nécessaire de parler anglais pour comprendre ce qu'ils foutent là et ce qu'ils veulent dire. C'est même pas digne des pires heures de GPT4-Turbo. Si le reste de ses talents est à l'avenant, je ne vois pas trop qui voudrait utiliser ça pour quoi que ce soit. Et vu que c'est désormais le seul modèle proposé gratuitement, ça va faire perdre beaucoup d'intérêt à Claude sur le gratuit.
votre avatar
Gemini a le même gros problème, parfois les 3/4 de la réponse est en anglais...

Ça arrive surtout quand la taille de contexte passe au delà de 550K Tokens, les 1 millions annoncé c'est du bidon, ça redevient vite instable.

De même que Qwen3 rame sérieusement au delà de 135K tokens pour 1 million annoncé aussi, et Supernova (Grok 4) fait absolument n'importe quoi au delà de ~200K tokens malgré les 1 million annoncés aussi.
votre avatar
Et toujours l'obligation de fournir un numéro de mobile vérifiable pour Claude, donc sans moi pour d'évidentes raisons privacy, respect RGPD, etc...

Je préfère ne pas tester tout cela avec mon code C plein de parallélisme jusqu'à des opérations atomiques (_Atomic). J'imagine les bêtises qu'une IA pourrait inventer avec ça !

[Confirmé - Gemini 2.5 Pro] Il ne sait absolument pas proposer un algorithme atomique qui tienne la route (absence de raisonnement réel), par contre un fois qu'on lui dit ce qu'on veut précisément, il sait le coder et expliquer correctement les concepts de modèle de mémoire et d'opération atomique. Ca reste une aide au final pour les détails vraiment très fins, et une meilleur compréhension des choses !