Même sans accès à Internet, les robots se débarrassent enfin du contrôle humain ! Google lance son premier cerveau IA hors ligne, capable de travailler avec une seule phrase.

Nous avons vu trop de robots perdre le contrôle dans les films et les séries. Nous avons aussi appris par cœur certaines solutions : déconnectez Internet, débranchez le cordon d'alimentation et redémarrez le robot ; il sera reconstruit en un clic.

Mais aujourd’hui, ce processus pourrait ne plus fonctionner aussi bien.

Aujourd'hui, Google DeepMind a lancé un nouveau modèle de contrôle robotique : Gemini Robotics On-Device. Ce modèle de grande taille peut fonctionner localement sur le robot et intègre la reconnaissance visuelle, la compréhension du langage et l'exécution d'actions.

Son principal atout est que même lorsqu’il est complètement hors ligne, il peut comprendre les instructions humaines et effectuer des tâches en douceur.

Comparé aux grands modèles tels que ChatGPT et Gemini qui sont bons pour discuter, écrire et répondre aux questions, Gemini Robotics On-Device équipe le robot d'un véritable « cerveau », lui permettant d'avoir des capacités de compréhension et d'exécution similaires.

Il s'agit essentiellement d'un modèle VLA de base spécialement conçu pour les robots à deux bras. Comme son nom l'indique, la combinaison Vision, Langage et Action lui confère les qualités fondamentales suivantes : voir, entendre, comprendre et se déplacer.

Par exemple, vous pouvez demander au robot : « Veuillez plier ce vêtement, le mettre dans le sac à dos et le fermer. » Auparavant, cela nécessitait d'écrire des programmes et de décomposer les actions à l'avance. Désormais, Gemini On-Device peut comprendre directement le sens de cette phrase et l'exécuter étape par étape.

Alors pourquoi s'embêter à l'exécuter localement alors qu'on peut l'exécuter via Internet ? La réponse réside dans la rapidité et la stabilité.

Si le robot doit transmettre des données au cloud, attendre que le serveur les analyse, puis renvoyer les résultats, des retards sont inévitables. Dans des tâches telles que les opérations médicales, les secours en cas de catastrophe et l'automatisation industrielle, la tolérance aux retards est quasi nulle. De plus, dans la réalité, de nombreux endroits ont un réseau médiocre, voire inexistant.

En fait, permettre aux robots de faire face avec succès à des tâches complexes et dynamiques du monde réel a toujours été l’un des défis les plus difficiles à relever dans le domaine de l’IA.

Les vidéos publiques montrent que Gemini On-Device est déjà capable de gérer une variété de situations courantes, comme plier des vêtements, fermer une fermeture éclair, saisir des objets inconnus et les placer à des endroits précis. Tout cela grâce à son mécanisme d'apprentissage.

▲Forte capacité de généralisation

Il ne nécessite pas de formation approfondie. Les développeurs n'ont besoin que de 50 à 100 démonstrations manuelles, comme le contrôle personnel du robot pour plier des vêtements, et le modèle peut rapidement apprendre et fonctionner de manière autonome.

Dans les tâches distribuées plus difficiles ou l'exécution d'instructions complexes en plusieurs étapes, Gemini Robotics On-Device continue de surpasser les autres alternatives locales actuelles.

De plus, il est très adaptable.

Bien que Gemini Robotics On-Device ait été initialement formé sur la plate-forme de robot à double bras ALOHA développée par Google, avec une petite adaptation, il peut également fonctionner de manière stable sur le bras de robot industriel Franka FR3.

Même le robot humanoïde Apollo, structurellement différent, peut fonctionner sans problème, le même modèle général s'habituant à des formes de corps complètement différentes grâce à un petit apprentissage.

Idéalement, les développeurs n'ont pas besoin de réentraîner une IA pour chaque nouveau robot. Il leur suffit d'entraîner un modèle général une seule fois, puis de le déployer sur diverses plateformes robotiques grâce à l'apprentissage par transfert léger. Cette capacité à utiliser un modèle unique pour de multiples usages devrait accélérer la popularisation et l'application de la technologie robotique.

Bien sûr, bien qu’idéal, il a aussi ses défauts.

À mesure que les robots gagnent en intelligence et en autonomie, les exigences de sécurité augmentent. Bien que Gemini On-Device puisse effectuer des actions, il ne peut raisonnablement déterminer si la tâche que vous lui confiez est sûre. Par conséquent, un « verrou de sécurité » doit être ajouté au modèle.

La suggestion de DeepMind est que les développeurs peuvent connecter le modèle à l'interface API Google Gemini Live, permettant au système de déterminer d'abord si l'instruction est raisonnable, puis de décider s'il faut l'exécuter ; en même temps, définir des restrictions physiques au niveau de l'action, telles que la force, l'angle et la vitesse, pour éviter les accidents.

En outre, il existe encore une marge d’amélioration dans les capacités de planification logique en plusieurs étapes du modèle.

Les opérations nécessitant un agencement logique et séquentiel, comme la préparation de sandwichs et le rangement du bureau, ne sont pas encore dans sa zone de confort. Ceci est lié à l'architecture Gemini 2.0 sur laquelle il repose. À l'avenir, lors de la mise à niveau vers la version 2.5, cette fonctionnalité pourrait également être complétée.

Un autre défi pratique est celui des données.

Bien qu'il suffise de quelques dizaines de démonstrations pour démarrer, la démonstration idéale repose sur des données réelles collectées par des personnes réelles lors de l'utilisation du robot, plutôt que sur une simulation virtuelle. Les résultats de l'entraînement avec ce type de données sont plus rapides, plus précis et plus stables.

▲Adresse du rapport technique : https://arxiv.org/pdf/2503.20020

Selon la cheffe du projet, Carolina Parada, c'est la première fois que Google publie un modèle d'IA robotique qui fonctionne de manière totalement indépendante du cloud, et c'est également la première version que les développeurs peuvent affiner en fonction de leurs propres besoins.

DeepMind a ouvert l'accès au SDK et aux modèles Gemini Robotics On-Device à des « testeurs de confiance ». Si vous êtes développeur et que vous travaillez sur des robots, l'automatisation industrielle ou la recherche sur les systèmes intelligents, vous pouvez demander un essai dès maintenant.

Joignez le lien de candidature : https://docs.google.com/forms/d/1sM5GqcVMWv-KmKY3TOMpVtQ-lDFeAftQ-d9xQn92jCE/edit?ts=67cef986

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo