Conversation avec Vivo Hu Baishan : L’industrie de la téléphonie mobile est la nouvelle productivité la plus typique, le prototype MR sera vu cette année
Au cours de la dernière semaine de 2024, Ai Faner et d'autres médias se sont rendus au siège de vivo à Dongguan et ont eu une conversation fluide avec Hu Baishan, vice-président exécutif et directeur de l'exploitation de vivo, et ont parlé de la structure du marché, des processus et des applications de l'IA. et sur L'orientation future et la planification des produits vivo incluent des réflexions sur le marché des écrans pliants, des plans et des opinions sur les lunettes MR, les robots humanoïdes et les lunettes IA, ainsi que la force de vivo : l'imagerie.
Ce qui suit est un résumé du dialogue au niveau du produit (le dialogue a été réédité par Ai Faner pour en faciliter la lecture) :
Il y a encore place à l'amélioration dans le domaine du téléobjectif et de la vidéo, mais l'IA des téléphones mobiles a encore un long chemin à parcourir.
Q : Que pensez-vous de la situation actuelle de l’IA ? L’IA remplacera-t-elle l’imagerie comme argument de vente numéro un des téléphones mobiles à l’avenir ? La qualité d’image des téléphones phares a-t-elle pris fin maintenant ?
Hu Baishan : Parlons d'abord des images. Notre objectif ultime est de remplacer la plupart des scènes utilisées par les appareils photo reflex. Son plafond est donc encore très haut.
J'ai également dit auparavant que la caméra principale du X200 Pro avait été réduite de 1 pouce à 1/1,28 pouce sur le produit phare de la génération précédente, mais l'expérience utilisateur n'a pas diminué. La raison de l'absence de baisse est le traitement de la puce. la puissance et l’algorithme d’imagerie se sont beaucoup améliorés. Cela illustre un problème : l'expérience utilisateur de l'appareil photo principal a atteint un bon niveau. Si l'on donne une note, en supposant qu'un reflex avec une focale régulière est de 100 points, notre appareil photo principal est désormais proche de 80 à 85 points.
Mais en matière de téléobjectif et de vidéo, l'écart avec le reflex reste encore relativement important. Si nous continuons à marquer, l'appareil photo principal est de 80 à 85 et le téléobjectif est d'environ 60, passant à peine.
Dans la scène de concert, à une focale de 10x, notre X200 Pro est toujours OK. À 20x, c'est-à-dire que lorsque vous êtes assis dehors, l'effet de prise de vue de nuit permet de voir clairement qui est la personne, mais l'utilisateur ne le fait toujours pas. Je n'ose pas partager la photo avec Moments car c'est un peu difficile à utiliser, mais je peux l'utiliser 10 fois.
En termes de téléobjectif, les images de nos téléphones portables sont relativement éloignées de celles du reflex. D'ici 3 à 5 ans, vivo pourra améliorer le téléobjectif au niveau de 80 points. Cette opportunité existe toujours. Bien que l’utilisation de l’espace interne des téléphones mobiles ait atteint ses limites, où est l’autre marge d’amélioration ? Les capacités photosensibles des capteurs d’images peuvent continuer à être améliorées grâce à la technologie, et les grands modèles et algorithmes d’imagerie peuvent également être considérablement améliorés. C'est pourquoi je suis convaincu que Vivo atteindra 80 points en téléobjectif à l'avenir.
Prendre des photos est relativement statique, donc le champ d'action de l'algorithme sera beaucoup plus large, mais la vidéo est dynamique, et si un tas d'algorithmes sont ajoutés à la vidéo, il y aura une énorme pression sur la consommation d'énergie. Bien sûr, il y a place à l'amélioration ici. La puce est désormais de 3 nm, et la prochaine génération sera composée de puces SoC de 2 nm, et même les puces de traitement d'image spécialisées s'amélioreront à l'avenir. Dans la prochaine étape, nous utiliserons également les capacités algorithmiques des grands modèles sur les vidéos, mais la logique globale des vidéos est dynamique, donc les capacités de bénédiction de l'algorithme seront encore plus faibles.
Qu'il s'agisse du téléobjectif ou de la vidéo, il reste encore un long chemin à parcourir avant que les utilisateurs puissent satisfaire leurs exigences élevées. La technologie elle-même a encore beaucoup de marge de développement, de sorte que l'imagerie sera toujours au centre des futurs téléphones phares.
En parlant d’IA, il est vrai que de grands modèles ont été produits ces deux dernières années, et l’IA y continue à se développer rapidement. Pour en revenir au téléphone mobile lui-même, l'IA a encore ses limites. Le plus gros problème avec les téléphones mobiles est la puissance de calcul insuffisante. J'ai divisé l'IA des téléphones mobiles en trois étapes :
La première étape consiste à améliorer les capacités de l'IA dans certaines fonctions passées. Par exemple, au cours de la dernière période, la chose la plus populaire dans l'ensemble de l'industrie de la téléphonie mobile est l'élimination de l'IA. Cette fonction existe depuis plus de dix ans. existe à l'ère de la technologie fonctionnelle, mais à cette époque, l'algorithme était de niveau relativement bas et cela n'a toujours pas été fait de manière efficace.
Dans le passé, les capacités de reconnaissance vocale, utilisant des méthodes d'apprentissage en profondeur, pouvaient avoir un taux de réussite de seulement 90 %. Avec ce taux de réussite, vous constaterez que la conversation ne peut pas être terminée avant plusieurs tours et que la distorsion dans chaque lien est trop importante. . Le grand modèle génératif est toujours le même après sa sortie, et la capacité de reconnaissance vocale et la capacité de compréhension sémantique sont considérablement améliorées à la fois. Dans le passé, nous avions une fonctionnalité appelée Telephone Secretary, qui a été lancée pour la première fois sur NEX 3. Dès que les gens en ont entendu parler, ils ont su qu'elle avait été créée par l'IA traditionnelle, et ils ont raccroché après avoir prononcé quelques mots. Désormais, grâce à la bénédiction de l’IA, personne ne peut dire que l’IA parle dans un court laps de temps.
Tout cela repose sur l’amélioration d’une certaine fonction ou d’un certain module. Ils ne sont pas seulement un peu différents de l’intelligence artificielle générale (AGI), mais sont très différents.
La deuxième étape, je pense, consiste à intégrer les capacités des grands modèles dans le système. Par exemple, lorsque nous recherchions un paramètre de fonction dans le passé, nous ne pouvions pas le trouver du tout car les options de menu étaient trop nombreuses et déroutantes. À l'avenir, l'IA et les systèmes seront profondément couplés, permettant au téléphone de comprendre clairement vos intentions et ce qu'il faut faire ensuite, rendant ainsi l'interaction téléphonique plus intelligente. Par exemple, « l'île atomique » que nous venons d'essayer consiste à connaître vos intentions et à trouver des solutions. Cette étape durera relativement longtemps, car l'expérience utilisateur à ce stade et la puissance de calcul actuelle peuvent à peine la satisfaire.
La troisième étape est ce que nous avons appelé PhoneGPT lors de la conférence VDC 2024. La fonction que nous avons démontrée à ce moment-là était de commander des plats à emporter, et nous avons dit que c'était un succès. En fait, le taux de réussite de chaque étape n'est que de 85 %. Après trois étapes, je ne peux plus courir, et cela prend beaucoup de temps. Cette expérience n'est qu'un modèle, et l'expérience utilisateur n'est pas bonne du tout.
Pour réellement répondre aux exigences de PhoneGPT, les besoins en puissance de calcul ne sont pas augmentés un peu, mais plusieurs fois. L’architecture intégrée, l’architecture de packaging et la bande passante actuelles ne suffisent pas. Pour le vrai PhoneGPT, l'ensemble des exigences en matière de capacités est que le stockage à haut débit actuel, les capacités côté serveur, les capacités de bande passante et l'architecture SoC doivent être proches du côté serveur pour avoir une chance d'être réalisés.
C'est comme les images. Nous pouvons voir que les besoins des utilisateurs ont été générés. De nombreux modèles fonctionnent sur des serveurs cloud. Notre centre informatique interne dispose de près de 10 000 cartes informatiques, comme un modèle avec 130B de paramètres. mais cette balance ne peut pas être exécutée sur les téléphones mobiles. Les téléphones mobiles ne peuvent exécuter que les paramètres 2B et 3B. Par conséquent, j’estime qu’il faudra moins de cinq ans aux téléphones mobiles pour réellement mettre en œuvre PhoneGPT, et cela ne répondra pas aux exigences d’expérience utilisateur.
La piste IA en est actuellement à sa deuxième étape. Il s’agit d’une amélioration progressive, pas d’une amélioration de 0 à 1. Par conséquent, l'IA a actuellement peu de force motrice pour l'ensemble de la vague de remplacement de téléphones, car les utilisateurs ne ressentent pas la mutation de 0 à 1. Seule la mutation de 0 à 1 se produit. Lorsque les utilisateurs découvrent que PhoneGPT peut faire tant de choses, ils le feront. Il y aura une forte envie de changer de téléphone.
Parce que je suis en charge à la fois des produits et de la technologie, ce que je divulgue devrait être le niveau actuel de notre technologie ou la technologie de l'ensemble de l'industrie.
Q : Dans l'industrie des smartphones, quels aspects la nouvelle productivité se reflète-t-elle et quels sont les éléments les plus importants ?
Hu Baishan : L'industrie de la téléphonie mobile est le représentant le plus typique d'une productivité de nouvelle qualité. D'après ma compréhension, la productivité de nouvelle qualité incarne les caractéristiques des trois sommets : haute technologie, haute qualité et énergie cinétique élevée, ainsi que les caractéristiques des trois sommets : haute technologie, haute qualité et énergie cinétique élevée. quatre nouvelles caractéristiques. Si l’on les mesure selon cette norme, les téléphones mobiles entrent dans la catégorie typique des nouvelles productivités. Nous avons vu que de nouvelles technologies ont été continuellement itérées sur les téléphones mobiles au cours des dernières années.
Les deux pistes auxquelles nous accordons une grande importance sont la piste imagerie et la piste IA. Dans le domaine de l'imagerie, au cours des cinq dernières années, tout le monde a pu ressentir les effets photographiques des téléphones portables dans diverses conditions. Il s'agit d'un processus de progrès rapide.
Les téléphones portables ont remplacé de nombreux appareils photo numériques que nous utilisions dans le passé, y compris les appareils photo sans miroir et les appareils photo reflex dans certaines scènes. De plus en plus de consommateurs sont prêts à payer pour de meilleures photos et sont prêts à payer plus pour prendre de meilleures photos. .
Les X100 Ultra et X200 Pro que nous lancerons en 2024, que nous avons nommés « Concert Artifacts », sont les mêmes. Il y a eu de nombreuses scènes de concert ces dernières années. Les gens organisent divers concerts et les consommateurs espèrent se souvenir de ce beau moment. Pourquoi avons-nous besoin de téléphones portables sur les scènes de concert ? Les appareils photo reflex ne peuvent pas être utilisés sur la scène des concerts, les consommateurs ne peuvent donc utiliser leur téléphone portable que pour enregistrer de beaux moments.
Il en va de même pour la piste IA. L'IA vient de démarrer, mais elle a en fait renforcé les téléphones mobiles dans de nombreux domaines. Je pense qu'il ne fait aucun doute que l'industrie de la téléphonie mobile est représentative d'une nouvelle productivité. Je pense également que pendant longtemps encore, les téléphones mobiles resteront le principal produit électronique grand public et pourront contribuer à une nouvelle productivité.
Le prototype Vivo MR sera vu l'année prochaine et il faudra dix ans pour que les robots humanoïdes mûrissent
Q : Quels sont les progrès de vivo en matière de MR (réalité mixte) et de robots humanoïdes ?
Hu Baishan : Notre MR fonctionne relativement vite. L'équipe vivo MR a atteint près de 500 personnes. Notre objectif de progression est vers septembre ou octobre 2025. Des prototypes d'expérience MR haute fidélité seront disponibles dans des magasins in vivo dans une douzaine de villes du monde. pays. De la réservation initiale à l'expérience sur place, un processus standardisé est mis en place pour que chacun puisse en faire l'expérience.
En termes de commercialisation, nous devons examiner l’ensemble de l’écosystème MR. L’écosystème MR a encore besoin de contenu de divertissement et de contenu de jeu. Parce que vivo est une entreprise relativement pure qui ne produit pas de contenu, le contenu dépend donc de la capacité de l'ensemble de l'écosystème à lui correspondre dans le temps. Bien sûr, de nombreuses informations montrent que l'industrie évolue dans une direction favorable. Tencent va augmenter ses investissements dans le contenu. Dans le passé, leur idée était de fabriquer du matériel. Récemment, leur idée n'est pas de fabriquer du matériel, mais de créer des logiciels. . C’est une grosse affaire pour nous.
Mon exigence pour l'équipe MR est qu'il faut trouver les scènes que nous jugeons plus nécessaires. Le point de segmentation de la foule n'a pas d'importance, mais pour la foule segmentée, MR est indispensable.
Par exemple, l'expérience des jeux joués sur téléphones mobiles ou des jeux joués sur consoles est à ce niveau. Après l'introduction de MR, les utilisateurs ont découvert que ces jeux n'étaient que de la racaille et l'expérience a été grandement améliorée. Sauf qu'ils n'emportent pas l'équipement MR avec eux, la plupart du temps, ils recherchent ce MR chaque fois qu'ils ont le temps de jouer à des jeux. C'est un scénario où ils en ont juste besoin.
Concernant les robots humanoïdes, nous avions également évoqué ce concept l'année dernière. Tout le monde sait pourquoi il y a une telle demande : le vieillissement de la société devient de plus en plus grave.
Du point de vue des tendances, les robots vont effectivement dans une direction. Nous avons analysé certains des chemins clés des robots, dont l’un est la perception spatiale. La capacité de perception spatiale du MR est très forte. Une fois la MR terminée, il n'y aura aucun problème avec la capacité de perception spatiale du robot.
Une autre exigence pour un robot est que ses mains et ses pieds doivent être suffisamment flexibles et que son cerveau doit avoir de fortes capacités de prise de décision. Par conséquent, pour réaliser le robot idéal de chacun, notre propre jugement prendra plus de dix ans.
La capacité de perception spatiale et la capacité de prise de décision ne seront pas aussi parfaites dans un court laps de temps, mais la capacité des mains et des pieds s'améliorera en fait relativement rapidement, comme les robots industriels qui effectuent des tâches spéciales dans des scènes spéciales.
Le robot véritablement idéal peut prendre dix, voire quinze ans, pour être réalisé, mais nous pouvons le mettre en œuvre par étapes, par exemple, en limitant d'abord la portée des robots de la chaîne de production, nous espérons faire « dix tâches ». à l'avenir, "Live", nous construisons également cette capacité, mais la production de produits n'est pas si rapide.
Notre logique actuelle est la suivante : ce type de robot est ce que nous appelons en interne les exigences de la scène et les besoins des utilisateurs. Les exigences et les exigences des utilisateurs sont relativement claires, mais le chemin de la solution technique n'est pas tout à fait clair. Tout comme lorsque nous avons parlé d'images auparavant, ce que les utilisateurs veulent, c'est filmer avec un appareil photo reflex de référence. Les robots sont une situation où les besoins de l'utilisateur en matière de scène sont suffisamment clairs, mais la technologie ne correspond pas. Au cours des trois à cinq prochaines années, nous déterminerons l'état de maturité de la technologie. Sur la base de l'état de maturité de la technologie, nous pourrons mettre en place un produit capable de résoudre certains scénarios locaux à l'heure actuelle.
Pour parler franchement, nous devons déterminer quel sera l’état de la technologie au cours des trois à cinq prochaines années, y compris les capacités de l’IA. Sur la base de cette capacité technique, nous effectuons quelques découpes dans le scénario idéal pour répondre aux besoins de scénarios spécifiques. Ce sont quelques cycles de produits que nous avons formulés en interne.
Q : La chaîne industrielle de la RA mûrira plus rapidement. Qu’en pensez-vous ?
Hu Baishan : Nous comprenons le produit AR de cette façon. Tout d'abord, du point de vue des besoins des utilisateurs, les lunettes AR avec écran sont très lourdes, quarante ou cinquante grammes. Les lunettes AR ont une partie d'affichage qui affiche les choses. Il y en a relativement peu. Nous n'avons pas créé cette catégorie pour le moment. Nous considérerons les lunettes sans affichage.
Quelle que soit la catégorie dans laquelle nous travaillons, nous devons trouver les scénarios dont j'ai besoin de toute urgence. Nous devons trouver des groupes segmentés. Pour cette catégorie, ils sont absolument nécessaires. Il y a quelque temps, un collègue produit m'a parlé et j'ai demandé si c'était le cas. essentiel de les trouver. Y a-t-il des utilisateurs et des scénarios ? Il a dit qu'il en avait trouvé une partie, ce qui semblait raisonnable.
Parce que les mains de nombreux utilisateurs sont déjà occupées lorsqu’ils travaillent. Que diriez-vous d’une autre personne qui se tiendrait derrière et le servirait ? S'il est seul et que ses mains sont occupées, il a besoin d'un appareil auxiliaire pour compenser cette scène. Ni un téléphone portable ni d'autres appareils ne peuvent bien résoudre le problème. Par conséquent, la logique de positionnement de notre équipement MR est que cette chose est nécessaire de toute urgence et indispensable pour ces personnes. Nous avons trouvé certains groupes de personnes. Si le produit est rapide, il devrait apparaître d'ici la fin de 2025, s'il est lent. il apparaîtra en 2026.
La demande de paravents pliants est apparue et le rythme des produits va changer.
Q : Le marché des téléphones mobiles à écran pliable, en croissance depuis quatre ans, a stagné, voire décliné. Quel est le projet de vivo pour les téléphones mobiles à écran pliable ?
Hu Baishan : Les paravents pliables suscitent peut-être de plus grands espoirs de la part de divers fabricants au début, car après tout, il s'agit d'un énorme changement dans la forme du produit. Revenons au point de vue des besoins des utilisateurs : qui utilise les paravents ?
Pour les personnes comme moi qui ont plus de 45 ans et dont les yeux ont commencé à souffrir de presbytie, les téléphones pliables résolvent désormais le problème de nombreuses personnes dont les yeux ont commencé à souffrir de presbytie. Pour regarder beaucoup d'actualités ou de vidéos, ils ont besoin d'un. un écran beaucoup plus grand sur leur téléphone portable. Cela résout le problème dont ont besoin les personnes âgées.
Le deuxième type de personnes est comme tous les gens des médias ici, qui utilisent tous des plieuses et doivent traiter beaucoup d'informations, y compris moi-même, qui dois traiter beaucoup d'e-mails d'entreprise.
La machine à barres chocolatées traite d'abord les informations verticalement, et lorsque vous cliquez dessus, vous devez la tourner horizontalement. Cette expérience n'est pas bonne et les polices sont relativement petites.
Quelle que soit la catégorie, cela répond aux besoins des groupes segmentés. Pourquoi dis-je que lors de la fabrication de produits, nous devons également déterminer quels utilisateurs ont un besoin urgent. Lorsque Folding est sorti pour la première fois, un grand nombre d'utilisateurs avaient l'intention d'essayer quelque chose de nouveau. Ils ne l'avaient jamais utilisé auparavant, ils ont donc essayé de l'utiliser, mais après l'avoir utilisé, ils ont découvert qu'il ne leur convenait pas.
J'ai un ami qui a dit qu'à part lire WeChat, passer des appels téléphoniques et envoyer des SMS, le reste du temps sur son téléphone portable, TikTok est toujours sur l'écran vertical. du tout. Il n’achètera certainement pas d’écran pliable pour son prochain téléphone.
Après le développement précédent, ce qui reste du paravent, ce sont les utilisateurs qui en ont juste besoin. Les deux types d'utilisateurs que nous venons de mentionner sont ceux qui veulent essayer de nouvelles choses. La capacité de marché des premier et deuxième types d’utilisateurs n’est en réalité pas si grande. De plus, dans de nombreux scénarios, tels que les scénarios de jeu, les paravents ne sont certainement pas bons à utiliser. Son environnement de dissipation thermique est pire que celui d'une machine à barres chocolatées, et l'expérience de contrôle n'est pas aussi bonne que celle d'une machine à barres chocolatées. Les paravents sont donc devenus un produit destiné à des personnes segmentées. La taille totale de ce marché dépend de la taille de la population segmentée, elle pourrait se stabiliser à l'avenir autour de 5 millions d'unités.
Pour nous, faut-il le faire ? Faire. Parce qu'il existe différents groupes de personnes en fonction des besoins des utilisateurs, mais nous devons les contrôler. Nous avons fabriqué deux modèles en même temps avec une remise importante par rapport à la génération précédente, l'un axé sur l'imagerie et les performances, et l'autre sur la rentabilité. Nous avions prévu de vendre des millions d'unités, mais nous avons finalement constaté que nous y sommes parvenus. À des centaines de milliers d'unités, cette échelle est encore limitée. Normalement, nous allons répéter une fois par an. Nous avancerons à ce rythme et améliorerons l'expérience utilisateur. Après tout, il y a toujours des utilisateurs qui ont juste besoin de Folding. Par exemple, certains utilisateurs utilisent un seul téléphone mobile pour gérer WeChat et les interactions sociales quotidiennes. , et un autre téléphone portable pour lire les cotations boursières.
De plus, comme pour les petits produits pliants, les petits produits pliants connaîtront une croissance mondiale en 2023. En 2024, les petits produits pliants des grandes marques du secteur chuteront de 30 à 40 %. Vivo ne devrait plus sortir de petits produits pliants à l'avenir. .
Le prix des téléphones phares continuera d'augmenter, mais l'expérience des téléphones sous-phares est déjà assez bonne.
Q : Le prix des téléphones phares a légèrement augmenté cette année. L'augmentation des prix se poursuivra-t-elle l'année prochaine ? Comment Vivo équilibre-t-il le coût et le prix ?
Hu Baishan : Nous estimons que la hausse des prix pourrait se poursuivre. Le premier est très clair. La plate-forme phare SoC et le processus de fabrication des semi-conducteurs seront améliorés, donc la poursuite de la hausse des prix est certaine. Nous faisons également de notre mieux pour négocier avec les fabricants de SoC, et nous ne pouvons pas trop augmenter le prix. Par exemple, s'ils doivent sacrifier leur marge bénéficiaire brute, nous sacrifierons également un peu de marge bénéficiaire brute pour maintenir la marge bénéficiaire brute. augmentation des prix. Ou si l'augmentation des prix est plus lente, elle sera de 500, et nous l'augmenterons de 300. , et deux cents supplémentaires augmenteront l'année prochaine.
Le second comprend les images que nous venons de mentionner, comme le téléobjectif, qui est loin des 80 points. Nous devons continuer à investir chaque année, même si l'espace reste inchangé, dans les modalités de mise en œuvre, comme la disposition des objectifs et la mise en œuvre des. modules, va changer. Après des changements majeurs, le taux de rendement diminuera et le coût de chaque produit augmentera.
C'est une tendance inévitable à la hausse du prix des téléphones phares. Pour la plupart des utilisateurs ordinaires (les téléphones sous-phares le font désormais) s'en sortent mieux. Par exemple, sur la plate-forme N-1 (un téléphone sous-phare utilisant la puce phare de la génération précédente), l'expérience utilisateur a été considérablement améliorée par rapport à l'original. Nos futures images phares pourront également être déployées sur les produits de la plateforme N-1 pour répondre à la problématique du pouvoir d'achat des utilisateurs.
Pour parler franchement, si les utilisateurs souhaitent bénéficier de l'expérience utilisateur ultime, de l'expérience ultime en matière d'imagerie, d'IA et de jeux, je suis désolé, mais ils doivent quand même payer cinq cents yuans supplémentaires. Je ne recherche pas l'expérience ultime, juste une expérience moyenne, OK, la plate-forme N-1 a également une très bonne apparence, bien sûr, elle n'a pas une telle expérience ultime, mais pour les utilisateurs, ils ne veulent pas jouer aux jeux les plus puissants , jouez simplement à Genshin Impact, N- 1 Il n'y a absolument aucun problème avec la plateforme. Lorsque vous prenez des photos, si vous ne recherchez pas le téléobjectif 20x pour les concerts, mais si vous recherchez le 10x, le modèle standard de notre série X peut également mieux vous satisfaire.
Par conséquent, les utilisateurs ayant un fort pouvoir d'achat et la recherche ultime de l'expérience iront plus loin, mais parmi nous, nous déploierons certainement certains produits dans des gammes de prix appropriées et des produits avec une meilleure expérience pour répondre aux besoins des utilisateurs.
# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo