ChatGPT parle déjà. Bientôt, on verra peut-être aussi

ChatGPT rencontre un chien
OpenAI

Le mode vocal avancé de ChatGPT, qui permet aux utilisateurs de converser avec le chatbot en temps réel, pourrait bientôt bénéficier du don de la vue, selon le code découvert dans la dernière version bêta de la plateforme. Bien qu'OpenAI n'ait pas encore confirmé la sortie spécifique de la nouvelle fonctionnalité, le code de la version bêta de ChatGPT v1.2024.317 repéré par Android Authority suggère que la soi-disant « caméra en direct » pourrait être prochainement disponible.

OpenAI avait présenté pour la première fois les capacités de vision du mode vocal avancé pour ChatGPT en mai, lorsque la fonctionnalité a été lancée pour la première fois en version alpha. Lors d'une démo publiée à l'époque, le système était capable d'identifier qu'il regardait un chien grâce au flux de la caméra du téléphone, d'identifier le chien sur la base d'interactions passées, de reconnaître la balle du chien et d'associer la relation du chien avec la balle (c'est-à-dire jouer à chercher).

La fonctionnalité a également été un succès immédiat auprès des testeurs alpha. L'utilisateur de X, Manuel Sainsily, l'a utilisé à bon escient pour répondre à des questions verbales sur son nouveau chaton, basées sur le flux vidéo de la caméra.

Le mode vocal avancé a ensuite été publié en version bêta pour les abonnés Plus et Enterprise en septembre , mais sans ses capacités visuelles supplémentaires. Bien sûr, cela n’a pas empêché les utilisateurs de se déchaîner en testant les limites vocales de la fonctionnalité. Advanced Voice « offre des conversations plus naturelles et en temps réel, vous permet d'interrompre à tout moment, et détecte et répond à vos émotions », selon l'entreprise .

L'ajout d'yeux numériques distinguerait certainement Advanced Voice Mode des principaux concurrents d'OpenAI, Google et Meta, qui ont tous deux introduit leurs propres fonctionnalités conversationnelles ces derniers mois.

Gemini Liveest peut-être capable de parler plus de 40 langues , mais il ne peut pas voir le monde qui l'entoure (au moins jusqu'à ce que le projet Astra démarre ) – et les interactions vocales naturelles de Meta, qui ont fait leurs débuts lors de l'événement Connect 2024 en septembre, ne peuvent pas non plus utiliser entrées de caméra.