Afficher le résumé Masquer le résumé
- Un bond en avant pour le code et les agents IA
- Des performances qui dépassent les candidats humains
- Plus intelligent ET plus efficace
- Un nouveau paramètre « effort » pour les développeurs
- Le modèle le plus sûr d’Anthropic
- Tarifs et disponibilité
- Ce qu’en disent les premiers utilisateurs
- Vidéo de présentation officielle
- Sources
Anthropic vient de frapper un grand coup avec Claude Opus 4.5, un modèle d’intelligence artificielle qui redéfinit les standards en matière de programmation, d’automatisation et d’utilisation d’ordinateurs. Disponible immédiatement, ce nouveau modèle promet de transformer la façon dont les développeurs et les entreprises travaillent.
Un bond en avant pour le code et les agents IA
Claude Opus 4.5 n’est pas une simple mise à jour incrémentale. Selon Anthropic, c’est « le meilleur modèle au monde pour le code, les agents et l’utilisation d’ordinateurs ». Les benchmarks parlent d’eux-mêmes : sur SWE-bench Verified, un test de référence pour évaluer les capacités de programmation des IA, Opus 4.5 atteint des performances état de l’art.
Mais ce qui impressionne le plus les premiers testeurs, c’est la capacité du modèle à comprendre l’ambiguïté et raisonner sur les compromis sans qu’on ait besoin de lui tenir la main. Pointez-le sur un bug complexe impliquant plusieurs systèmes, et il trouve la solution. Des tâches qui semblaient impossibles pour Sonnet 4.5 il y a quelques semaines sont maintenant à portée.
Des performances qui dépassent les candidats humains
Anthropic a fait passer à Opus 4.5 leur examen technique de recrutement, réputé particulièrement difficile. Le résultat ? Dans le temps imparti de 2 heures, le modèle a obtenu un score plus élevé que n’importe quel candidat humain ayant jamais passé ce test.
Cette performance soulève évidemment des questions sur l’avenir du métier de développeur. Anthropic indique travailler activement sur ces implications via ses équipes de recherche « Societal Impacts » et « Economic Futures ».
Plus intelligent ET plus efficace
Contrairement à ce qu’on pourrait penser, plus de puissance ne signifie pas plus de tokens consommés. C’est même l’inverse : Claude Opus 4.5 utilise dramatiquement moins de tokens que ses prédécesseurs pour atteindre des résultats similaires ou meilleurs.
À lire OpenAI Deep Research : l’agent IA qui fait des heures de recherche en quelques minutes
Les chiffres sont parlants :
- À effort « medium », Opus 4.5 égale les performances de Sonnet 4.5 sur SWE-bench tout en utilisant 76% moins de tokens
- À effort maximal, il dépasse Sonnet de 4.3 points de pourcentage avec 48% moins de tokens
- Certains clients rapportent des réductions de 50% à 75% des erreurs de tool calling
Un nouveau paramètre « effort » pour les développeurs
Anthropic introduit un nouveau paramètre sur son API : le contrôle d’effort. Les développeurs peuvent maintenant choisir de minimiser le temps et le coût, ou de maximiser les capacités selon leurs besoins. Cette flexibilité permet d’adapter le modèle à chaque cas d’usage.
Le modèle le plus sûr d’Anthropic
Opus 4.5 est également présenté comme le modèle le plus robustement aligné jamais publié par Anthropic. Il est particulièrement résistant aux attaques par injection de prompt, ces techniques qui tentent de faire dévier les IA de leur comportement prévu. Selon les tests de Gray Swan, c’est le modèle frontier le plus difficile à tromper de l’industrie.
Tarifs et disponibilité
Claude Opus 4.5 est disponible dès maintenant :
- Via l’API : claude-opus-4-5-20251101
- Prix : 5$/25$ par million de tokens (input/output)
- Plateformes : Applications Claude, API, AWS, Azure, Google Cloud
Pour les utilisateurs Max et Team Premium, Anthropic a supprimé les quotas spécifiques à Opus et augmenté les limites globales d’utilisation.
Ce qu’en disent les premiers utilisateurs
Les retours des entreprises ayant eu un accès anticipé sont unanimes :
« Claude Opus 4.5 délivre du code de haute qualité et excelle dans les workflows agentiques lourds avec GitHub Copilot. Les tests préliminaires montrent qu’il surpasse nos benchmarks internes tout en réduisant l’utilisation de tokens de moitié. »
— GitHub
« Les tâches qui prenaient 2 heures aux modèles précédents prennent maintenant trente minutes. »— Val.town