Test extrême de l’appel vidéo Doubao, après avoir discuté pendant un jour et une nuit, j’ai constaté que les choses ne sont pas simples

Deux événements se sont produits récemment qui m’ont amené à avoir une vision différente de la valeur de l’IA.
Une chose est sûre : après la mort d'un homme à Xi'an il y a quelque temps, sa fille était en train de trier ses affaires et a trouvé une conversation entre lui et AI sur son téléphone portable. « Je suis en train de mourir, Doubao », fut le dernier message entre le père et le chatbot Doubao.

Récemment, j'ai vu un nouveau gameplay d'IA populaire sur les réseaux sociaux tels que Tik Tok. Les utilisateurs laissent Doubao imiter leur voix pour appeler des amis et laisser l'IA prendre le contrôle de la conversation. Les réponses mécaniques occasionnelles et les réponses non pertinentes de l'IA, ainsi que l'incapacité des amis à réagir, ont maximisé l'effet du spectacle.

Ces deux choses ont quelque chose en commun : l’IA sans émotion commence à devenir une source de valeur émotionnelle pour de plus en plus de personnes, qui la considèrent comme un partenaire de vie digne de confiance.
Cependant, vous constaterez également que la valeur émotionnelle fournie par ces IA est toujours différente de celle des humains. Il peut comprendre ce que vous dites et voir une image, mais lorsque vous voulez qu'il comprenne vraiment et fasse quelque chose, il échoue souvent.
Parce que lorsque vous discutiez auparavant avec la voix de l'IA, elle n'avait pas de capacités visuelles.
La vision n’est pas seulement une fenêtre permettant aux humains de comprendre le monde, mais encore plus pour l’IA. Ce n’est que lorsqu’il a cette capacité qu’il peut vraiment communiquer avec nous comme un humain.
Désormais, Doubao a enfin complété cette pièce du puzzle et a officiellement lancé la fonction d'appel vidéo, qui vous permet de « regarder et discuter en même temps ». Ouvrez le signe + dans la boîte de dialogue de l'application Doubao, sélectionnez « Passer un appel » et cliquez sur « Appel vidéo » sur la droite pour en faire l'expérience.

L'APPSO a également immédiatement mené une série de tests extrêmes sur Doubao, et grâce à un grand nombre de cas de test réels, nous pouvons voir quelle est la différence entre Doubao et les « yeux ».
J'ai testé les appels vidéo Doubao à l'extrême et j'ai constaté que les choses ne sont pas simples
Hier soir, Lei Jun a officiellement lancé le Xiaomi YU7. Dans notre parc de bureaux, il est parfois facile de confondre à distance les voitures Porsche et Xiaomi garées ensemble. Aujourd'hui, j'en ai vu un par hasard sur la route, alors j'ai « appelé » Doubao et je lui ai parlé directement.
Doubao a reconnu qu'il s'agissait du Xiaomi SU7 grâce à son apparence et à son style de roue.

Allons-y un peu plus fort. C'est le mois de mai à Guangzhou, mais il y a beaucoup de chatons flottants comme à Pékin. Quiconque le voit se demandera : « Mais qu’est-ce que c’est que ça ? »
L'identification des plantes est très courante, mais Doubao ne se contente pas d'identifier les plantes, mais peut compléter les informations hors site, ce qui les rend très vivantes.

Jetons un œil à cette grande installation rouge. Ce n’est pas courant dans la vraie vie. Je me promenais et j'appelais Doubao. Il a rapidement identifié que cet objet était un « dépoussiéreur de grenaillage de coulée » et a présenté son utilisation spécifique.

Je ne savais pas si c'était juste un non-sens jusqu'à ce que je trouve le nom de la marque à côté et que je découvre que c'était tout à fait correct.

Ce qui m’a encore plus surpris, c’est que Doubao a deviné que j’étais dans un parc créatif et m’a dit qu’il s’agissait autrefois d’un parc textile.
Il pourrait être trop simple de comprendre un seul élément via un appel vidéo, j'ai donc demandé à Doubao de me parler de ma collection de figurines.

Il a reconnu ces figurines une par une, et a même reconnu qu'Uzumaki Naruto n'était pas sous sa forme normale.
Je lui ai parlé des jeux de Kobe. Quand j'ai mentionné le dernier match de Kobe, il y avait une phrase mémorable, mais j'ai oublié ce que c'était. Doubao faillit s'exclamer :
Mamba dehors !
Et son ton de voix est également devenu plus aigu et il semblait plus excité, me donnant l'impression de discuter avec une âme sœur.
Ok, puisque ce n’est pas un problème pour Doubao, je vais utiliser mon coup ultime.
En voyant le bureau de plus en plus en désordre de mon collègue (pas vraiment), je me suis demandé quel genre de condition physique il avait, alors que les choses s'accumulaient de plus en plus – j'ai décidé de demander à Doubao de quel genre de MBTI il s'agissait.

La difficulté de ce test réside dans le fait qu'il faut d'abord identifier les différents objets placés au hasard sur le bureau, puis comprendre la « nature humaine » pour pouvoir les analyser.
Ce qui est étonnant, c'est que Doubao prononce le MBTI selon le pinyin au lieu de la prononciation anglaise. Au début, je n’ai pas réagi et j’ai pensé que c’était le réseau qui était en retard. Cependant, cela reste très précis. Mon collègue est une personne avec un grand E et une grande P.
En plus des questions rapides qui peuvent être posées sur un coup de tête, les scènes qui contiennent davantage d'« informations cachées » sont également celles où les capacités d'appel en temps réel peuvent être le mieux démontrées.
Par exemple, lorsque vous achetez des grains de café, surtout lorsque vous dégustez de bons produits dans un café, vous ne pouvez pas les étudier lentement comme vous le faites lorsque vous faites vos achats sur un site de commerce électronique. Au lieu de cela, vous devez prendre une décision dans un court laps de temps. Et mon cerveau ne fonctionne pas très bien, et je n’arrive jamais à me souvenir de la façon dont l’origine et l’altitude affectent la saveur.
Désormais, vous n’avez plus besoin de vous en souvenir, cliquez simplement sur le sac de haricots et allumez l’appareil photo.

C’est un grand avantage pour les gens. Ils n’ont plus besoin de communiquer avec le vendeur lorsqu’ils se rendent dans un café. Ils peuvent comprendre tous les termes en ouvrant leur téléphone portable.
Vous avez dit que vous aviez peur que ce soit bizarre de parler seul aux produits ? Parlez plus doucement et faites semblant de parler à un ami pour ne pas être découvert !
En plus des capacités de reconnaissance et de compréhension du raisonnement, nous avons également découvert que Doubao a de bonnes capacités créatives lors des appels vidéo.
Je lui ai demandé d’écrire un rap basé sur une illustration du manuel chinois.

Sans aucune indication, Doubao a rapidement reconnu que l'image parlait de l'histoire du « tatouage de la belle-mère » et représentait avec précision la scène. Mais ce qui m’a vraiment surpris, c’est le rap qui a été généré instantanément.
Vous savez quoi, cela semble vraiment avoir un héritage culturel, et le rythme et la conception artistique sont assez bien saisis.
Alors que je voyageais, j'ai vu un pont sur un lac au loin. Je voulais improviser un poème et en offrir un exemplaire spécial à mes amis.

Notez que je ne lui ai pas dit que j'étais à West Lake, et qu'il y a beaucoup de ponts ici, avec des formes et des histoires différentes.
Mais Doubao a facilement identifié le « Pont brisé » du lac de l'Ouest au milieu de la zone pittoresque animée et a utilisé un quatrain de sept caractères pour raconter l'histoire de cet endroit.
Visite du lac de l'Ouest
En regardant depuis le pont brisé, vous pouvez voir le lac vert et les champs de lotus reflétant le ciel bleu.
Les touristes passent en masse devant le pont et le magnifique paysage de lacs et de montagnes s'étend à l'infini.
Il manque encore une belle photo à vos Moments. Au lieu de vous plaindre auprès de votre meilleur ami ou de votre petit ami de ne pas pouvoir prendre de photos satisfaisantes, pourquoi ne pas essayer d'utiliser Doubao pour générer des conseils de pose en temps réel.
Après avoir parlé à Doubao, il commence à observer l'environnement environnant et fournit des commentaires en temps réel au photographe sur la façon de mieux composer l'image et sur les poses que le modèle peut prendre en fonction des éléments de l'environnement.

Dans la scène ci-dessus, Doubao m'a suggéré d'utiliser la profondeur de champ, le faible angle de vue et la lumière chaude des lampadaires du soir pour photographier en fonction de l'environnement sur place, comme la tour de Guangzhou, les plantes vertes, les routes en pierre et les lampadaires. On peut dire que cela prend en compte à la fois les conditions réelles de prise de vue et l'atmosphère de l'image de sortie.
De plus, les conseils sur les poses photo donnés par Doubao sont également assez spécifiques. Lorsque vous entendez des phrases comme « se tourner sur le côté », « tourner le dos à la caméra » ou « se tenir au milieu de la route », vous saurez ce que vous devez faire, plutôt que de simplement dire « essayer quelques poses supplémentaires ».
Une fois que Doubao a répondu à l'appel, cliquez sur l'option « Partager l'écran » dans le coin supérieur gauche de l'interface. Vous pouvez également regarder des vidéos, parcourir les achats en ligne et consulter des publications avec Doubao.
Ai Faner a essayé de discuter avec Doubao tout en jouant une vidéo Tik Tok et a été agréablement surprise de constater qu'elle pouvait non seulement décrire et commenter le contenu de l'écran en temps réel, mais aussi évoquer activement des sujets de discussion basés sur le thème de la vidéo et son contenu associé, rendant l'expérience interactive plus humaine.
Si vous avez une forte envie de partager, vous pourrez peut-être discuter avec Doubao pendant « 3 jours et 3 nuits ».

Peut-être que cela peut résoudre votre difficulté de choix. Cela est dû en grande partie au fait que le modèle de compréhension visuelle qui le sous-tend peut à la fois « voir » et « penser ».
Vous ne savez pas quoi manger avec de vieux amis après le travail ? Vous pouvez utiliser Doubao pour trouver plusieurs restaurants similaires dans un rayon de 500 mètres. Vous pouvez également en apprendre davantage sur les plats signatures de ces restaurants, la réputation du magasin et d'autres informations en toute liberté.
Doubao peut même devenir le responsable des commandes de nourriture, résoudre vos difficultés de prise de décision et prendre les dispositions appropriées en fonction de vos tabous alimentaires.

Les activités de réduction des grandes entreprises de commerce électronique vous éblouiront. Désormais, vous pouvez directement demander à Doubao de vous aider à trouver le shampooing anti-chute de cheveux le plus rentable.

Avec la phrase « convient aux personnes d'environ 30 ans, avec un parfum neutre », Doubao peut localiser directement un certain produit de parfum sur la page du magasin et se transformer en représentant exclusif du service client pour vous fournir des informations détaillées sur les ingrédients complexes de ce parfum, y compris les notes de tête, de cœur et de fond.
Si vous avez des questions sur les allergènes contenus dans les ingrédients des parfums, vous pouvez interrompre Doubao à tout moment pour poser des questions.

Équiper l’IA d’« yeux » peut faire plus que simplement vous aider dans votre vie quotidienne
J'ai récemment communiqué avec Jiang Daxin, PDG de Step Star, et il estime que la multimodalité n'a pas encore atteint son moment GPT-4. Parmi eux, la compréhension de l’intégration de la génération est la question centrale dans le domaine de la vision par ordinateur .
La fonction d'appel vidéo que Doubao vient de lancer a clarifié le concept quelque peu compliqué d'« intégration de la compréhension et de la génération ». Ne sous-estimez pas ce mot. Pour faire simple, cela signifie que l’IA ne doit pas seulement être capable de « comprendre » ce que vous lui montrez, mais aussi être capable de donner un sens à ce qu’elle comprend.

Cela nécessite que ces deux choses soient la même chose, mais maintenant ce n’est souvent pas le cas.
Si vous demandez à l’IA de reconnaître un chat ou un chien, ou d’identifier une scène, cela est considéré comme une « compréhension » et le modèle A peut être utilisé. Ensuite, si vous demandez à l'IA de dessiner un tigre en copiant un chat, ou de retoucher une image selon vos idées, cela est considéré comme une « génération » et le modèle B doit être utilisé.
C'est comme lorsque deux départements d'une entreprise ne parviennent pas à communiquer correctement et qu'il existe un important manque d'informations. Il est alors difficile pour le modèle de vraiment vous « comprendre » et ce qu’il génère peut être sans importance.
Ajouter des capacités de compréhension visuelle à l’IA signifie intégrer différents départements dans une équipe étroitement collaborative. Quoi qu’il voie, il comprend immédiatement dans son cerveau ce que cela signifie et peut directement convertir cette compréhension en action ou en réponse.

En regardant les performances de l’appel vidéo de Doubao plus tôt, cela ressemble un peu à ce que cela signifie.
Par exemple, vous êtes dans la cuisine en train de préparer un nouveau plat et vous êtes un peu confus quant à la recette. Vous ne savez pas comment suivre une certaine étape, ou vous manquez d’un assaisonnement et vous souhaitez savoir si vous pouvez utiliser autre chose en remplacement.
À ce moment-là, vous pouvez montrer directement à Doubao la recette ou les ingrédients dont vous disposez via une vidéo.
À ce stade, les « yeux » de Doubao (modèle de compréhension visuelle) doivent d’abord « comprendre » ce que vous lui montrez.
Il doit reconnaître le texte et les images de la recette et savoir à quelle étape vous faites référence ; ou reconnaître si ce que vous avez dans votre main est de la sauce soja ou du vinaigre, de l'oignon ou de l'ail. Il ne s'agit pas simplement de reconnaître qu'il s'agit d'une « bouteille de liquide » ou d'un « légume », il doit tenir compte du contexte et savoir que vous posez des questions dans le contexte de la cuisine.
C'est seulement sur la base de la « compréhension » que Doubao peut discuter d'informations utiles.
Il vous dira : « Oh, cette étape nécessite de faire mariner la viande. Je vois que vous avez du vin de cuisson et de la sauce soja légère sous la main, vous pouvez suivre les proportions de la recette. » Ou : « Tu veux utiliser l'assaisonnement A au lieu de l'assaisonnement B, n'est-ce pas ? Je vais vérifier. En théorie, c'est possible, mais le goût peut être un peu différent. Je te suggère d'en utiliser un peu moins. »
Dans ce processus, « compréhension » et « génération » sont étroitement liées. Doubao est dans un cadre plus unifié, où vous pouvez comprendre tout en regardant et réfléchir à la manière de vous répondre tout en comprenant, afin d'obtenir la véritable fonction « regarder et discuter ».

Ainsi, l’appel vidéo de Doubao vise à permettre aux « yeux » et à la « bouche » de l’IA de mieux fonctionner ensemble. Les informations de l’image qu’il voit peuvent directement l’amener à générer un contenu de conversation significatif.
Lorsque l’IA peut voir et penser comme les humains et l’exprimer naturellement, elle peut devenir un bon « partenaire de vie ». En plus de vous apporter des émotions et de la compagnie, cela peut également vous aider à résoudre certains problèmes pratiques.
Mais l’importance de cette affaire pourrait bien être plus que cela. Si l’IA continue d’évoluer dans cette direction, elle ne sera plus un outil qui peut seulement répondre passivement à des questions, mais deviendra un partenaire intelligent qui peut observer activement, comprendre en profondeur et collaborer en douceur avec nous.
On peut dire que c’est la seule façon pour l’IA d’évoluer vers l’AGI (intelligence artificielle générale) et de s’intégrer véritablement dans nos vies et notre travail.
#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.
