Gemini AI rend les robots au bureau bien plus utiles

Un robot de tous les jours naviguant dans un bureau.
Robot de tous les jours

Perdu dans un immeuble de bureaux, un magasin à grande surface ou un entrepôt inconnu ? Demandez simplement votre chemin au robot le plus proche.

Une équipe de chercheurs de Google a combiné les pouvoirs du traitement du langage naturel et de la vision par ordinateur pour développer un nouveau moyen de navigation robotique dans le cadre d' une nouvelle étude publiée mercredi .

Voir cette publication sur Instagram

Un post partagé par Google DeepMind (@googledeepmind)

Essentiellement, l’équipe a décidé d’enseigner à un robot – en l’occurrence un robot de tous les jours – comment naviguer dans un espace intérieur à l’aide d’invites en langage naturel et d’entrées visuelles. La navigation robotique obligeait autrefois les chercheurs non seulement à cartographier l'environnement à l'avance, mais également à fournir des coordonnées physiques spécifiques dans l'espace pour guider la machine. Les progrès récents dans ce que l'on appelle la navigation Vision Language ont permis aux utilisateurs de simplement donner aux robots des commandes en langage naturel, comme « aller à l'établi ». Les chercheurs de Google vont encore plus loin dans ce concept en intégrant des capacités multimodales, de sorte que le robot puisse accepter simultanément des instructions en langage naturel et en images.

Par exemple, un utilisateur dans un entrepôt pourrait montrer un article au robot et demander : « sur quelle étagère cela se passe-t-il ? Tirant parti de la puissance de Gemini 1.5 Pro, l'IA interprète à la fois la question orale et les informations visuelles pour formuler non seulement une réponse, mais également un chemin de navigation pour conduire l'utilisateur au bon endroit dans l'entrepôt. Les robots ont également été testés avec des commandes telles que « Emmenez-moi dans la salle de conférence avec les doubles portes », « Où puis-je emprunter du désinfectant pour les mains » et « Je veux stocker quelque chose hors de la vue du public ». Où dois-je aller?"

Ou, dans la bobine Instagram ci-dessus, un chercheur active le système avec un « robot OK » avant de demander à être conduit quelque part où « il peut dessiner ». Le robot répond par « donnez-moi une minute. Penser avec Gemini… » avant de se lancer d'un bon pas dans le bureau DeepMind de 9 000 pieds carrés à la recherche d'un grand tableau blanc mural.

Pour être honnête, ces robots pionniers connaissaient déjà l’aménagement des bureaux. L’équipe a utilisé une technique connue sous le nom de « Navigation pédagogique multimodale avec visites de démonstration (MINT) ». Cela impliquait que l'équipe guidait d'abord manuellement le robot dans le bureau, en soulignant des zones et des caractéristiques spécifiques en utilisant un langage naturel, bien que le même effet puisse être obtenu en enregistrant simplement une vidéo de l'espace à l'aide d'un smartphone. À partir de là, l’IA génère un graphique topologique dans lequel elle s’efforce de faire correspondre ce que voient ses caméras avec le « cadre d’objectif » de la vidéo de démonstration.

Ensuite, l’équipe utilise une politique de navigation hiérarchique Vision-Langage-Action (VLA) « combinant la compréhension de l’environnement et le raisonnement de bon sens » pour indiquer à l’IA comment traduire les demandes des utilisateurs en actions de navigation.

Les résultats ont été très concluants, les robots atteignant « des taux de réussite de bout en bout de 86 % et 90 % sur des tâches de navigation auparavant irréalisables impliquant un raisonnement complexe et des instructions utilisateur multimodales dans un vaste environnement réel », ont écrit les chercheurs.

Cependant, ils reconnaissent qu'il y a encore place à l'amélioration, soulignant que le robot ne peut pas (encore) effectuer de manière autonome sa propre tournée de démonstration et notant que le temps d'inférence disgracieux de l'IA (le temps qu'il faut pour formuler une réponse) de 10 à 30 secondes l'interaction avec le système devient une étude de patience.