GPT-4o et Gemini 1.5 Pro viennent d’être battus dans la course à l’IA

20 juin 2024 Hibou Gourou

une capture d'écran du sonnet de Claude 3.5, avec un crabe 8 bits — Anthropique

Il y a un nouveau leader, techniquement, dans la course à la domination des assistants IA, et c'est le nouveau Claude 3.5 Sonnet d'Anthropic. Le modèle nouvellement publié surpasse à la fois Gemini 1.5 Pro et ChatGPT-4o dans une gamme de tests de référence, a annoncé la société jeudi .

Cette nouvelle itération de Sonnet est la première de la prochaine gamme de modèles 3.5 d'Anthropic, et elle surpasse considérablement le modèle Opus 3.0, plus expansif, et ce, à une fraction du coût énergétique du modèle plus grand. L'efficacité informatique devient un aspect de plus en plus important dans la conception des systèmes d'IA , d'autant plus que les coûts d'alimentation et de refroidissement des centres de données d'IA montent en flèche tandis que l'infrastructure atteint la gamme des gigawatts .

Claude 3.5 Sonnet pour la vision

"Claude 3.5 Sonnet fonctionne deux fois plus vite que Claude 3 Opus", a écrit l'équipe Anthropic dans un article de blog. « Cette amélioration des performances, combinée à un prix rentable, fait de Claude 3.5 Sonnet le produit idéal pour les tâches complexes telles que le support client contextuel et l'orchestration de flux de travail en plusieurs étapes. »

Le nouveau modèle aurait établi des résultats de référence pour trois tests standardisés : le raisonnement au niveau universitaire avec GPQA , les connaissances au niveau du premier cycle avec MMLU et la maîtrise du codage avec HumanEval . Il a battu Gemini 1.5 Pro de Google, Llama-400b de Meta et ChatGPT-4o d'OpenAI, mais pas avec une marge énorme et généralement seulement de quelques points de pourcentage.

Un tableau montrant les performances de Claude 3.5 Sonnet par rapport à d'autres systèmes d'IA de premier plan. — Anthropique

Sonnet 3.5 est présenté comme le « modèle de vision le plus solide à ce jour » d'Anthropic. « Il est capable d'effectuer un certain nombre de tâches basées sur la vision – comme l'interprétation de tableaux et de graphiques ou la transcription de texte à partir de sources d'images imparfaites comme des captures d'écran ou des reçus numérisés – avec plus de précision que l'Opus 3.0. En fait, Sonnet 3.5 a battu Opus 3.0 de 6 à 17 points selon les critères de vision standard de l'industrie. Le nouveau modèle serait également beaucoup plus compétent dans la gestion de l'humour et pourrait converser de manière beaucoup plus réaliste.

Sonnet sera également la première IA anthropique à proposer la fonctionnalité Artefacts aux utilisateurs. Plutôt que de générer des images ou des extraits de code directement dans le flux de la conversation, Artifacts créera ce contenu dans un espace dédié à côté du chat. Cela permet aux utilisateurs de créer « un espace de travail dynamique où ils peuvent voir, éditer et développer les créations de Claude en temps réel, intégrant de manière transparente le contenu généré par l'IA dans leurs projets et flux de travail », affirme l'équipe Anthropic. Il a également annoncé que Claude prendrait bientôt en charge la collaboration en équipe dans le cadre de laquelle une entreprise pourra stocker ses données, documents et projets dans un silo central unique, Claude agissant comme assistant à la demande.

Vous pouvez essayer Claude 3.5 Sonnet dès aujourd'hui gratuitement sur le site Claude.ai et l'application Claude iOS (un abonnement Claude Pro ou Team vous rapportera des limites tarifaires nettement plus élevées). L'intégration tierce est également disponible via l'API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Claude Haiku 3.5 et Opus 3.5 devraient sortir plus tard dans l'année.