Claude d’Anthropic peut désormais contrôler les ordinateurs comme le font les gens

le logo de contrôle informatique de Claude
Anthropique

Le Claude 3.5 Sonnet, déjà impressionnant d'Anthropic, bénéficie d'une amélioration significative de ses performances mardi alors que la startup d'IA générative déploie une version améliorée et mise à jour du modèle aux côtés du nouveau Claude 3.5 Haiku léger. La mise à jour Sonnet inclut une fonctionnalité bêta publique qui donne à l'IA un contrôle de base sur l'ordinateur sur lequel elle s'exécute.

Claude 3.5 Sonnet était déjà un leader en termes de performances en matière de tâches de codage, mais la nouvelle version présente des améliorations globales significatives par rapport à son prédécesseur et surpasse régulièrement Gemini 1.5 et GPT-4o sur une variété de références industrielles. Gemini 1.5 Pro était le seul modèle à battre le nouveau Sonnet 3.5 dans tous les tests, et ce, sur le benchmark MATH .

Le nouveau 3.5 Haiku n’est pas en reste non plus, malgré sa petite taille. Prévu pour sortir plus tard ce mois-ci, le 3.5 Haiku surpasse le Claude 3.0 Opus, le plus grand modèle de dernière génération de l'entreprise. Comme sa version plus grande, le nouveau Haiku est extrêmement compétent dans les tâches de codage, avec un score de 40,6 % sur le banc SWE Verified, soit un résultat supérieur à celui du GPT-40 et du Sonnet 3,5 d'origine.

nouvelle grille de performances du sonnet Claude 3.5
Anthropique

Plus impressionnant encore, le nouveau Claude 3.5 Sonnet peut désormais interagir avec les applications de bureau via l'API « Computer Use ». L'IA peut générer les frappes au clavier, les clics de souris et les mouvements nécessaires pour imiter l'utilisateur humain. L'entreprise s'empresse de souligner que le système est actuellement assez expérimental et sujet aux erreurs. L'objectif sous-jacent de la version bêta publique est d'obtenir les commentaires des développeurs afin d'améliorer rapidement les performances de l'API.

"Nous avons formé Claude à voir ce qui se passe sur un écran, puis à utiliser les outils logiciels disponibles pour effectuer des tâches", a écrit Anthropic dans un article de blog . « Lorsqu'un développeur charge Claude d'utiliser un logiciel informatique et lui donne l'accès nécessaire, Claude regarde des captures d'écran de ce qui est visible par l'utilisateur, puis compte le nombre de pixels verticalement ou horizontalement dont il a besoin pour déplacer un curseur afin de cliquer. le bon endroit.

Claude | Utilisation de l'ordinateur pour automatiser les opérations

C'est essentiellement un agent d'IA. Autrement dit, il s'agit d'une IA capable d'automatiser d'autres processus logiciels, qu'il s'agisse de générer et de qualifier des pistes marketing, de découvrir des modèles et des tendances dans les données médicales, ou simplement de naviguer vers un site Web spécifique et de remplir un formulaire dont vous avez besoin. Considérez-les comme une version plus avancée des systèmes d’automatisation des processus robotiques existants.

La société cite Asana, Canva, Cognition, DoorDash, Replit et The Browser Company comme les premiers à avoir adopté la nouvelle fonctionnalité. Replit, par exemple, utilise Computer Control pour « développer une fonctionnalité clé qui évalue les applications au fur et à mesure de leur création pour leur produit Replit Agent », selon l'annonce.

Il n'y a pas lieu de s'inquiéter du fait que l'IA utilise Skynet (encore) sur nous, comme l'explique Anthropic. "Les humains gardent le contrôle en fournissant des invites spécifiques qui dirigent les actions de Claude, comme 'utiliser les données de mon ordinateur et en ligne pour remplir ce formulaire'", a déclaré un porte-parole d'Anthropic à TechCrunch . « Les gens autorisent l’accès et limitent l’accès si nécessaire. Claude décompose les invites de l'utilisateur en commandes informatiques (par exemple, déplacer le curseur, cliquer, taper) pour accomplir cette tâche spécifique.

Anthropic admet également que le contrôle informatique pourrait être utilisé à mauvais escient pour générer du spam, diffuser des informations erronées ou commettre une fraude. En réponse, la société a développé de nouveaux classificateurs qui identifient quand l’API est utilisée et si cette utilisation « cause un préjudice ».