J’ai testé l’avatar de compréhension du monde de Gemini Live. C’était choquant

C'est quelque peu déconcertant d'entendre une IA parler sur un ton étrangement amical et me dire de nettoyer le désordre sur mon poste de travail. J'en suis un peu fier, mais je suppose qu'il est temps d'empiler les gadgets éparpillés au hasard et de ranger le désordre.

Ma sœur serait également d’accord. Mais passer à l’action après qu’une IA « voit » ma table, reconnaît le désordre et donne des conseils aux femmes au foyer est la vision d’ensemble. Le chatbot Gemini AI de Google peut désormais le faire. Et bien plus encore.

La sauce secrète ici est une récente mise à jour de fonctionnalités appelée Project Astra . Il est en développement depuis des années et a finalement commencé à être déployé plus tôt ce mois-ci . L’idée générale est de proposer une IA qui voit tout, qui entend tout et ouvertement intelligente sur votre téléphone.

Google vend ces super pouvoirs sous un nom plutôt peu inspirant : Gemini Live avec partage de caméra et d'écran. Développée au sein de l'unité DeepMind de l'entreprise, la société a commencé son développement en tant qu'« assistant universel d'IA ». C'est dommage que le nom final ne soit pas aussi ambitieux.

Commençons par la situation de l'accès. Cette fonctionnalité est désormais disponible pour les utilisateurs de Pixel 9 et de Galaxy S25 . Mais si vous possédez un téléphone Android avec un abonnement Gemini Advanced, vous pouvez accéder à la nouvelle boîte à outils.

Soit dit en passant, cela représenterait 20 $ par mois. Je l'ai essayé sur les deux téléphones susmentionnés et je l'ai maintenant prêt à fonctionner également sur mon OnePlus 13 . La partie la plus sympa ? Vous n’avez pas besoin de passer par des obstacles techniques pour y accéder.

Une combinaison de boutons d'alimentation/volume ou un balayage du coin de l'écran pour invoquer Gemini est tout ce dont vous avez besoin. Quelle que soit l'application que vous exécutez, vous pouvez accéder à la nouvelle caméra et aux nouvelles fonctionnalités de partage d'écran en superposition dans tous les coins du système d'exploitation.

Donner du sens au monde qui vous entoure

J'ai commencé par pointer l'appareil photo vers un tableau et j'ai posé des questions à ce sujet. Gemini Live a pu le détecter avec précision comme une peinture de style Madhubani, décodant l'utilisation audacieuse des couleurs et la représentation des animaux.

Il m'a ensuite donné une brève leçon d'histoire et les variations qui se sont développées au fil des ans. Les informations étaient exactes, jusqu'au niveau le plus granulaire. Heureusement, vous pouvez également choisir d'avoir un échange textuel avec Gemini, si vous vous trouvez dans un endroit où les conversations vocales peuvent être gênantes.

Ce que j'aime le plus dans le nouvel avatar de caméra et de partage d'écran de Gemini Live, c'est qu'il n'est pas excessivement bavard. Vous pouvez l’interrompre à tout moment, ce qui ne fait qu’ajouter à l’attrait « naturel » des conversations.

J'ai essayé Gemini dans une variété de scénarios. Je n’y étais pas préparé.

Les réponses qu'il fournit sont généralement succinctes, comme s'il voulait vous donner une chance (ou même un coup de pouce) de poser une question complémentaire au lieu de donner une réponse extrêmement longue. Il excelle dans toute une gamme de sujets et de scénarios visuels, mais il comporte quelques pièges.

Il ne peut pas encore utiliser Google Lens, ce qui signifie que Gemini ne peut pas comparer les images qu'il voit sur l'écran de votre téléphone avec les résultats correspondants sur le Web. De plus, il ne peut pas accéder aux informations en temps réel si vous demandez à Gemini de rechercher les derniers développements autour d'un sujet ou d'une personnalité.

Je lui ai posé des questions sur les espèces végétales, les listes de restaurants, la collecte de données sur les panneaux d'affichage et la compréhension de ma prescription médicale pour un récent accès de grippe. Gemini s’en est plutôt bien sorti, plus que je n’ai jamais connu les performances du chatbot IA jusqu’à présent.

Débloquer une banque de connaissances

Ensuite, j'ai poussé Gemini à donner un sens à du matériel académique complexe. J'ai mis un livre sur le Machine Learning dans le cadre de la caméra. Gemini Live l'a non seulement reconnu, mais m'a également donné un aperçu du contenu du livre et de ses sujets principaux.

Curieusement, j'ai commencé à feuilleter les pages et j'ai atterri sur la liste des chapitres. L'IA a reconnu les progrès, a arrêté de parler et m'a demandé si j'étais intéressé par un chapitre en particulier maintenant que je consultais la liste des sujets.

J'ai été surpris à ce moment-là.

Je lui ai demandé de décomposer quelques sujets complexes, et l'IA a fait un travail respectable, allant même au-delà de la portée du contenu en page et en extrayant des informations de sa vaste banque de connaissances.

Par exemple, lorsque je l'ai interrogé sur le contenu de la page d'introduction du roman fondateur de Bhisham Sahni, Tamas, l'IA a correctement relevé la mention du prix Sahitya Akademi. Il a ensuite mentionné des détails qui n'étaient même pas répertoriés sur la page, comme l'année où il a remporté le prestigieux honneur littéraire et le sujet du livre.

D’un autre côté, la lecture en hindi par Gemini Live était horrible. Ce n'était pas seulement le mauvais accent, mais le fait que les Gémeaux prononçaient du pur charabia et des mots à plusieurs reprises. En essayant de lire l'ourdou, le persan et l'arabe, il faisait un bien meilleur travail, mais mélangeait souvent des mots provenant de lignes aléatoires.

Lors de ma première tentative avec la poésie ourdou, il a non seulement reconnu le texte ourdou, mais a également donné un résumé précis du poème. Le plus grand défi, encore une fois, était la narration. Entendre une version anglicisée de l’ourdou m’a vraiment fait mal aux oreilles.

Excelle dans des endroits surprenants

L’IA est un formidable outil de résolution de problèmes, et de nombreux benchmarks le prouvent. Je l'ai testé par rapport à des problèmes de physique traitant de la thermodynamique, des équations électrochimiques et des problèmes statistiques apparaissant dans un cahier manuscrit. Gemini Live a fait un travail fantastique dans de telles tâches.

Il excellait même dans les tâches créatives. Ma sœur, qui est créatrice de mode, a présenté un de ses croquis devant la caméra et a demandé des commentaires ainsi que des améliorations. Gemini Live a commencé par faire l'éloge du design, a établi des parallèles avec l'idéologie du design de quelques marques de mode et a formulé une poignée de recommandations.

Lorsqu'elle a été poussée plus loin, l'IA a également conseillé ma sœur sur les meilleurs outils pour convertir des croquis dessinés à la main en concepts numériques. Il a suivi ces conseils en fournissant des informations utiles sur la pile logicielle et où l'on pouvait trouver du matériel d'apprentissage.

Lorsque j'ai placé quelques piles Duracell dans la vue de la caméra, celle-ci les a non seulement reconnues avec précision, mais m'a également indiqué les plateformes de commerce électronique hyperlocales qui peuvent me les livrer en quelques minutes.

Les services – nommés Blinkit et Swiggy Instamart – ne sont disponibles qu'en Inde et principalement réservés aux zones urbaines. Même dans une pièce faiblement éclairée, il a pu identifier une paire d’écouteurs filaires dès le premier essai.

La connaissance de la situation est son point fort.

Par rapport à votre chat Gemini habituel ou à ce que vous trouvez dans la section Aperçus de l'IA de la recherche Google, les conversations Gemini Live adoptent une approche plus prudente dans la diffusion des connaissances, surtout si elles sont de nature sensible. J'ai remarqué que des sujets tels que les recommandations alimentaires et les traitements médicaux sont traités avec une approche de plus en plus prudente, et que les utilisateurs sont souvent incités à trouver la bonne ressource experte.

Quelques pièges familiers

Ce que je retiens le plus, c'est que le relooking du « Projet Astra » de Gemini est très impressionnant. C'est un aperçu de l'avenir de ce que les smartphones peuvent réaliser. Avec quelques améliorations, intégrations et flux de travail inter-applications, la recherche Google peut ressembler à une relique obsolète. Mais pour l’instant, il y a quelques défauts flagrants.

À quelques reprises, j’ai remarqué que le système de mémoire se détraquait. Lorsqu'on a demandé à l'IA d'identifier un bracelet de fitness dans la vue de la caméra, elle l'a correctement reconnu comme étant le Samsung Galaxy Fit 3 . Mais lorsque j'ai posé une question complémentaire, il a perçu à tort l'appareil comme un bracelet de fitness de Huawei.

Cela peut aussi mentir de manière flagrante. Et en toute confiance, pourrais-je dire. Par exemple, lorsque je lui ai demandé de résumer mon avis sur l'appareil portable, l'IA a répondu que Digital Trends ne l'avait pas encore examiné. En réalité, l'article a été publié il y a une semaine.

Ensuite, je lui ai demandé de parcourir quelques articles sur ma page d'auteur après avoir activé le partage d'écran. Les Gémeaux ont fait un travail décent en expliquant les histoires, mais ont parfois trébuché sur la compréhension contextuelle. Par exemple, il est mentionné à tort que seuls Intel et AMD peuvent fabriquer des NPU éligibles au badge Copilot+ .

L'article, en revanche, mentionne clairement que Qualcomm a été le premier à répondre à ces critères, avant la concurrence. Et ce n’est qu’à la fin de l’année dernière qu’AMD et Intel ont enfin pu passer au niveau supérieur et répondre à cette base de puces IA avec un nouveau portefeuille de processeurs.

Au milieu de la conversation sur un article, il s’est à nouveau heurté à un problème de mémoire. Au lieu de résumer l’histoire discutée, il est revenu à parler du premier article qu’il a vu via le partage d’écran. Lorsque je l'ai interrompu au milieu de la narration, Gemini a corrigé son erreur.

Un autre problème que j'ai remarqué avec la narration dans des langues autres que l'anglais est que Gemini Live a changé de manière aléatoire la voix et le rythme au milieu de la narration. C'était assez choquant, et la prononciation était absolument mécanique, bien différente de ses compétences conversationnelles en anglais, semblables à celles d'un humain.

Les difficultés de la vision industrielle sont également évidentes face aux polices stylistiques. À quelques reprises, elle a craché avec assurance des informations erronées et, lorsqu'on lui a demandé de se corriger, l'IA a exprimé son incapacité à trouver les dernières informations sur ce sujet. Ces scénarios sont rares, mais les erreurs des Gémeaux sont là pour rester.

Pour résumer, je pense que Gemini Live avec partage de caméra et d’écran est l’un des plus grands progrès réalisés par l’IA jusqu’à présent. Il s’agit à ce jour de l’une des implémentations les plus gratifiantes de l’IA générative. Tout ce dont il a besoin, c’est d’un soupçon de diversité et d’une solution à son syndrome du « menteur confiant ».

Les choses sont définitivement sur la bonne voie maintenant, et c’est largement le cas, mais il reste encore quelques étapes cruciales avant de devenir le parfait compagnon IA des rêves techno-futuristes.