La sixième version de ChatGPT à la fin de l’année est arrivée, avec des appels vidéo et le partage d’écran, ainsi qu’un œuf de Pâques de Noël.

Après le lancement complet de ChatGPT sur le Family Bucket d'Apple hier, OpenAI a apporté une autre mise à jour majeure.

Aujourd'hui, ChatGPT a lancé des fonctions d'appel vidéo et de partage d'écran ainsi qu'un « Mode Père Noël » vocal limité au Père Noël.

En d’autres termes, ChatGPT est désormais non seulement éloquent, mais peut également « ouvrir les yeux pour voir le monde ». En cas de doute, passez un « appel vidéo » directement à ChatGPT. Cela pourra peut-être vous aider à mieux résoudre le problème.

Ces fonctionnalités seront déployées à tous les utilisateurs de Team et à la plupart des abonnés Plus et Pro au cours de la semaine prochaine. Les utilisateurs payants dans l’UE devront attendre encore un peu.

ChatGPT, qui prend en charge plus de 50 langues, sera capable de comprendre des scènes visuelles en temps réel, de vous aider à résoudre des problèmes et même de devenir un tuteur en IA pour vous apprendre de nouvelles choses.

Lors de cette conférence de presse, qui a également duré moins de 20 minutes, Kevin Weil, directeur produit d'OpenAI, Jackie Shannon, Michelle Qin et Rowan Zellers nous ont montré ce que ChatGPT avec « des yeux » peut faire ?

Par exemple, lorsque vous achetez un ensemble d'équipement de café infusé à la main mais que vous ne savez pas par où commencer, vous pouvez aussi bien passer un « appel vidéo » à ChatGPT.

Il peut vous apprendre étape par étape comment réaliser chaque étape en fonction de l'appareil devant vous, depuis le placement du papier filtre, le versement de l'eau chaude, la mise en poudre de café moulu dans le papier filtre, etc., qui sont toutes enseignées et maîtrisées. .

Bloqué? N'hésitez pas à poser des questions aux enseignants GPT. Ce professeur d'IA répond non seulement à toutes les questions, mais fournit aussi occasionnellement des encouragements humains, pleins de valeur émotionnelle.

En plus du guidage vidéo en temps réel, ChatGPT prend également en charge la fonctionnalité de partage d'écran. Les utilisateurs doivent simplement cliquer sur l'icône du mode vocal avancé dans le coin inférieur droit et sélectionner Partager l'écran dans le menu déroulant pour obtenir une aide ciblée.

Lorsqu'il « voit » un ami porter un costume de Père Noël et plaisanter sur la question de savoir s'il est qualifié pour postuler au poste de Père Noël dans un centre commercial, l'enseignant GPT donnera des suggestions de formulation appropriées et un encouragement élevé en matière d'intelligence émotionnelle.

Salut Kevin, ton costume de Père Noël est tellement festif. Continuez peut-être à pratiquer votre « Ho Ho Ho » et vous serez un père Noël dans un centre commercial en un rien de temps.

En fait, le président d'OpenAI, Greg Brockman, a récemment mené un quiz de connaissances sur l'anatomie humaine avec Anderson Cooper en utilisant ChatGPT avec fonction visuelle.

Lorsque Cooper dessinait des parties du corps sur le tableau noir, ChatGPT était capable de « comprendre » instantanément ce qu'il dessinait.

"La position est très bonne, le cerveau est juste là, dans la tête. Quant à la forme, c'est un bon début, mais le cerveau ressemble plus à un ovale." ChatGPT peut même chanter la formule de l'aire du triangle avec un accent britannique.

Cependant, il y avait des défauts évidents dans le traitement ultérieur des problèmes géométriques par ChatGPT. Une simple erreur d'annotation n'a pas été trouvée, et il reste encore beaucoup à faire pour améliorer la capacité à comprendre la géométrie plane.

Afin d'accueillir l'arrivée de Noël, OpenAI a également lancé une voix prédéfinie « Père Noël ». Il suffit aux utilisateurs de cliquer sur l'icône en forme de flocon de neige sur l'écran d'accueil pour discuter avec ChatGPT Santa Claus.

Par exemple, laissez le Père Noël raconter une histoire.

Je dois dire qu'à chaque fois que le « Père Noël » prononce « Ho Ho Ho~ », c'est assez magique et cela semble très festif.

Lors de la diffusion en direct, l'animateur a également posé plusieurs questions au "Père Noël", dont mais sans s'y limiter, sa tradition de Noël préférée, son renne préféré, etc.

Fait intéressant, lorsque Kevin Weil a mis la fausse barbe du Père Noël et a demandé comment l'entretenir, ChatGPT, qui a donné le conseil, a également répondu sur le ton du Père Noël :

"Mon ami, c'est la barbe la plus impressionnante que j'ai jamais vue."

Cette voix sera lancée aujourd'hui, et afin de permettre à chaque utilisateur de profiter pleinement de cet œuf de vacances, OpenAI réinitialisera le numéro d'utilisation vocale avancée de l'utilisateur lors de la première expérience. Même si le quota est épuisé, l'utilisateur peut continuer à communiquer avec. vous via le mode vocal standard.

Peut-être parce que la conférence de presse a été trop longue, les plaintes des internautes se sont également concentrées sur cette voix du Père Noël. L’exemple le plus typique est celui de l’internaute X @khoomeik.

Jonas Adler, chercheur chez Google Deepmind, a même directement critiqué OpenAI :

C'est incroyable avec quelle rapidité OpenAI réagit aux produits que nous lançons et semble toujours être lancé en même temps. Cependant, je n'aime pas trop qu'ils utilisent le Mode Père Noël en réponse à Gemini 2.0, car il semble manquer d'importance et de sérieux pour correspondre à Gemini 2.0.

Il convient de mentionner qu'hier, Google a pris l'initiative de lancer un produit d'IA doté de capacités de compréhension visuelle, capable de comprendre et d'analyser la scène réelle dans laquelle se trouve l'utilisateur, et qui a reçu de nombreux éloges de la part des internautes.

Aujourd'hui, OpenAI a emboîté le pas et a installé des « yeux » sur ChatGPT, ce qui signifie également que ChatGPT est passé d'une modalité relativement unique à une « compréhension multimodale du langage visuel ».

En d'autres termes, ChatGPT ne se limitera plus aux instructions textuelles et aux informations saisies par l'utilisateur, mais sera capable de comprendre le contexte de l'utilisateur grâce à la vision, y compris les pages sur l'écran de l'ordinateur, les images capturées par les caméras des téléphones portables et même des informations en temps réel provenant d'autres périphériques.

Il y a un demi-siècle, les scientifiques du laboratoire Xerox PARC imaginaient un ordinateur capable de comprendre le comportement humain. Le développement actuel de l’IA transforme ce rêve en réalité au-delà du moniteur.

Du papier au clavier, du binaire au langage naturel, les humains ont simplifié leur façon de communiquer avec les machines. Les capacités visuelles de ChatGPT nous permettent également de voir la réponse ultime, qui consiste à laisser les machines « voir » le monde comme les humains.

Considérant qu'Altman et l'ancien directeur de la conception d'Apple, Jony Ive, ont développé des dispositifs matériels intelligents pour l'IA, je suis encore plus excité de voir cette fonctionnalité apparaître sur ce nouveau matériel.

Au moment où l’IA ouvre les yeux, elle entre enfin dans le monde aux yeux des humains.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo