Que se passe-t-il lorsque ChatGPT est installé sur le chien robot Boston Dynamics ?

28 avril 2023 Hibou Gourou

Le spot "Big Yellow Dog" de Boston Dynamics peut être considéré comme un modèle de robots de célébrités sur Internet.

Spot peut patrouiller, déplacer des briques et danser. Depuis sa naissance, Spot a attiré l'attention des amateurs de robots du monde entier. Qui peut refuser un tel chien robot avec des mouvements flexibles, une posture simple et honnête et une gentillesse.

Après des années de développement, être mignon n'est plus "l'activité principale" de Spot". Selon Boston Dynamics, Spot peut désormais aider les humains à accomplir des tâches dans des scénarios spécifiques, tels que la détection d'instruments sur des navires transocéaniques et la participation à des relevés de terrain complexes. Ou des travaux de sauvetage et bientôt.

Que se passera-t-il si vous donnez à Spot un corps aussi flexible et un cerveau aussi intelligent que ChatGPT ?

L'expert en intelligence artificielle Santiago Valdarrama a vraiment créé un tel spot avec le "cerveau le plus fort".

Utilisez ChatGPT pour simplifier considérablement l'interaction homme-ordinateur

Santiago a partagé sur Twitter une vidéo de lui interagissant avec une version modifiée de Spot, peut-être le premier chien robot qui parle et bavarde.

Comme on peut le voir dans la vidéo de démonstration, Spot n'est pas aussi simple que d'installer un "Siri". Lorsqu'il répond à des questions humaines, son corps va également se balancer avec le contenu et le ton de la phrase, qui ressemble à The Wall-E de la science-fiction est devenue réalité.

Lorsque vous posez des questions simples de type "oui ou non", il vous répondra également par un langage corporel tel que "hocher la tête" et "secouer la tête" au lieu de la voix. Cela montre que Spot est loin d'être aussi simple que d'avoir un construit -dans le haut-parleur intelligent.

Après avoir accédé à ChatGPT, le plus grand changement de Spot est qu'il peut comprendre la parole humaine et communiquer avec les utilisateurs en langage naturel.

Santiago a fait la démonstration d'une scène. Il a dit à Spot que la pièce était trop encombrée parce qu'elle gênait trop. Laissez-la reculer un peu. Dès que la voix est tombée, Spot a compris ce que voulait dire Santiago et a reculé de quelques pas.

Qu'en pensez-vous, est-ce comme appeler des robots pour travailler dans des films de science-fiction ?

Dans le passé, le fonctionnement de Spot nécessitait une grande télécommande de type drone ou un ordinateur pour saisir des commandes complexes, mais maintenant, l'ajout de ChatGPT a donné à Spot une puissante capacité de compréhension du langage naturel, et il peut interagir avec des robots en bougeant votre bouche.

Dans ce processus, ChatGPT agit comme un traducteur entre les humains et les robots, transformant les "mots humains" saisis par les humains en instructions que les machines peuvent comprendre, puis exprimant les commentaires du robot en comportement réel ou "mots humains".

Santiago a annoncé qu'ils avaient entré le fichier Spot dans ChatGPT, et a expliqué la structure du fichier et comment lire le fichier, réalisant ainsi le dialogue vocal et le fonctionnement avec Spot.

L'interaction entre l'opérateur et Spot a été grandement simplifiée. Les gens peuvent lui demander directement : " De combien de puissance disposez-vous ?" Puis Spot répondra vocalement, en utilisant la technologie de synthèse vocale de Google. Prononcez la réponse de ChatGPT via La "bouche" de Spot.

Spot (ou le ChatGPT intégré) répondra aux questions en fonction de la situation réelle, par exemple, lorsque vous lui demandez quelle tâche accomplir ensuite, il répondra en fonction de la liste de tâches définie, ce qui évite en grande partie les situations ChatGPT qui fabriquent des faits.

Lorsque l'opérateur donne à Spot des commandes telles que tourner à 90 degrés et avancer d'un mètre, Spot liera les capteurs internes et le système de positionnement pour répondre à ces commandes avec précision, et ne dira pas qu'il est hors de contrôle parce que le "cerveau est trop développé".

Fait intéressant, lorsque vous lui posez la question "Qui êtes-vous ?", il répondra "Je suis OpenAI.", et non le chien robot Spot.

La société de Santiago, Levatas, est une société d'intelligence artificielle qui coopère avec Boston Dynamics pour aider les entreprises à explorer comment utiliser des robots pour résoudre des problèmes pratiques.

Santiago estime que la plus grande importance pratique de l'installation de ChatGPT sur Spot est de transformer des données complexes que seuls les techniciens peuvent gérer en un langage naturel que tout le monde peut comprendre et comprendre.

Chaque fois qu'un robot effectue une tâche, il doit saisir un long ensemble d'instructions ; après avoir terminé le travail, il générera également une grande quantité de données, et seuls les techniciens les plus professionnels peuvent analyser les problèmes à partir de ces données.

Mais maintenant, grâce à ChatGPT, deux phrases simples peuvent le faire.

Lorsque le seuil de fonctionnement du robot devient plus bas, les scénarios d'utilisation du robot vont s'enrichir.

Le potentiel des grands modèles d'IA ne peut être sous-estimé

La version "cerveau la plus puissante" de Spot ne s'obtient pas du jour au lendemain. Il y a un mois, Santiago a publié une vidéo présentant un Spot capable de "comprendre la parole humaine", qui utilise Whisper, un autre modèle d'IA important d'OpenAI.

Dans cette "première édition" Smart Spot, Santiago en explique plus en détail les principes :

Whisper peut convertir efficacement la parole en texte en temps réel, et la précision et la vitesse de conversion sont très impressionnantes. En combinant Whisper avec le SDK de Spot, il peut extraire des mots clés de la parole humaine, puis envoyer des commandes à Spot via le SDK.

Vous n'avez qu'à lui dire un mot, vous pouvez faire sortir Spot du quai de recharge, vous lever pour vérifier s'il y a un problème avec le compteur, ce qui réduit considérablement le coût de fonctionnement des humains.

La pratique de Santiago répond d'un bon point de vue à une question largement débattue : quelle est l'importance d'un grand modèle de langage tel que ChatGPT ?

Au début, les gens pensaient que ChatGPT était une IA purement génératrice de texte. Il avait une capacité de compréhension du langage naturel relativement forte et pouvait écrire des articles et des rapports. Même s'il n'était pas si fiable, il était toujours incroyable.

Plus tard, les gens ont découvert que tant que ChatGPT reçoit les instructions appropriées, il peut automatiquement effectuer la programmation ou le traitement de texte à la place des humains, tout comme un ordinateur basé sur le langage naturel.

Après qu'OpenAI a publié la fonction de plug-in, ChatGPT peut être combiné avec de nombreuses applications Internet, intégrant de nombreuses opérations multiplateformes avec des dialogues et devenant une nouvelle entrée sur Internet.

Copilot publié par Microsoft a inspiré l'imagination des gens de la prochaine étape de l'interaction homme-machine : l'interface d'opération graphique n'est pas toujours un paradigme raisonnable, et de nombreuses opérations auxquelles nous sommes habitués peuvent être remplacées par le dialogue.

Lorsque nous revenons à Spot, nous pouvons clairement voir l'importance du grand modèle de langage : pour simplifier l'interaction homme-machine et donner aux robots une intelligence plus avancée.

Que ChatGPT soit utilisé comme nouveau portail Internet ou comme télécommande pour contrôler des robots industriels avec la capacité d'apprendre, d'analyser des problèmes et d'effectuer des opérations de haute précision, il transforme essentiellement des ensembles d'instructions complexes en langage naturel, réduisant ainsi les coûts d'exploitation.

Cette responsabilisation permettra aux futurs robots industriels non seulement d'être des outils d'exécution de commandes, mais aussi d'avoir un niveau d'intelligence comparable à celui du cerveau humain.

Tout comme l'interface graphique transforme les lignes de commande complexes en icônes intuitives, et maintenant l'opération complexe consistant à cliquer sur différentes icônes est devenue une simple phrase, les êtres humains passent de l'interface utilisateur graphique à une nouvelle étape : l'interface utilisateur en langage naturel.

À ce stade, le grand modèle de langage deviendra la technologie clé des robots industriels, ce qui simplifiera l'interaction homme-ordinateur, améliorera l'efficacité de la production et favorisera davantage le développement technologique de la société humaine.

Et dans certains cas, les modèles linguistiques peuvent même être plus performants que les humains pour comprendre le langage. Arvind Narayanan, professeur à l'Université de Princeton, a mentionné un cas personnel dans son blog.

Arvind Narayanan a connecté ChatGPT à l'interaction vocale pour sa fille de presque quatre ans. Comme tous les enfants, sa fille est pleine de curiosité et pose souvent diverses questions sur ChatGPT.

À sa grande surprise, lorsqu'il a dit à ChatGPT qu'il parlait à un enfant, ChatGPT est devenu très doué pour exprimer son empathie.

Fille : "Que se passe-t-il lorsque les lumières sont éteintes ?"
ChatGPT : "Avec les lumières éteintes, il fera très sombre et peut être un peu effrayant. Mais ne vous inquiétez pas ! Il y a beaucoup de choses qui peuvent vous aider à vous sentir en sécurité et à l'aise dans l'obscurité."

Le chroniqueur de "Bloomberg", Parmy Olson, a souligné que Microsoft et Google sont occupés à utiliser de grands modèles sur les moteurs de recherche, mais ils ne voient pas que ChatGPT est plus approprié comme compagnon émotionnel que comme fournisseur de faits.

Olson a également demandé à ChatGPT de passer un test d'intelligence émotionnelle, qui s'est avéré meilleur qu'elle-même et que ses collègues. Tout simplement parce que ChatGPT est formé avec du matériel textuel sur Internet, il y aura beaucoup de désinformation dans les données, mais cela le rend également meilleur pour imiter l'empathie.

Ces cas ont pleinement démontré que la capacité des grands modèles de langage à comprendre le langage naturel a en fait un grand potentiel d'application.

Avec une capacité de compréhension aussi puissante, nous pouvons utiliser le grand modèle de langage pour véritablement réaliser une autre innovation dans l'interaction homme-machine.Dans le même temps, l'émergence du grand modèle de langage a apporté de nouvelles possibilités pour le développement de robots.

Les grands modèles de langage permettent aux robots de mieux comprendre et traiter les instructions, et d'apprendre et de s'adapter plus rapidement à de nouvelles tâches et à de nouveaux environnements.

"The New Yorker" a mentionné dans l'article de couverture "Dark Factory" (Dark Factory) qu'une difficulté courante dans les robots industriels à l'heure actuelle est de concevoir un "effecteur final" comme une main humaine, de sorte que le robot puisse utiliser différents objets Grasp de différentes tailles et formes avec une grande force.

Si ce problème technique est résolu, les robots peuvent effectuer un travail plus délicat et le degré d'automatisation dans de nombreux domaines sera grandement amélioré. Par exemple, la cueillette de divers fruits peut être automatisée et la chaîne de montage de Foxconn n'a plus besoin d'autant de travailleurs.

Les futurs robots industriels ne devraient pas seulement être un outil d'exécution de commandes, mais aussi avoir un niveau d'intelligence comparable à celui du cerveau humain, avec la capacité d'apprendre, d'analyser des problèmes et d'effectuer des opérations de haute précision.

Sur la chaîne de production industrielle, les robots industriels "musclés" sont plus flexibles et efficaces, capables de mieux gérer divers problèmes de production et d'améliorer l'efficacité et la qualité de la production. Par exemple, dans le domaine de la fabrication automobile, les grands modèles de langage peuvent doter les robots d'une intelligence et de capacités cognitives plus fortes, leur permettant de mieux accomplir diverses tâches.

Dans le domaine de la robotique médicale, les robots peuvent communiquer avec les médecins et les patients grâce à la technologie de traitement du langage naturel pour fournir de meilleurs services médicaux.

Le grand modèle de langage a apporté un cerveau puissant à l'industrie des robots et a créé un scénario d'application plus généralisé pour les robots, qui est susceptible de devenir le cœur technique de la quatrième révolution industrielle. La « version vocale » de Spot est la première étincelle de cette mutation technologique.

Huang Zhijian

Coupez la merde.

Poster

#Bienvenue pour prêter attention au compte public WeChat officiel d'Aifaner : Aifaner (WeChat ID : ifanr), un contenu plus excitant vous sera présenté dès que possible.

Ai Faner | Lien d'origine · Voir les commentaires · Sina Weibo