Dites adieu au faux look, les internautes peuvent enfin « réfléchir » et « coopérer »

Le philosophe Andy Clark a proposé dans « The Natural Cyborg » que la relation entre les humains et la technologie est en train de passer de « l'utilisation d'outils » à « l'évolution symbiotique ».

La technologie humaine numérique accélère ce processus : en votre absence, les humains numériques créés par votre image et votre voix peuvent communiquer et s'exprimer 24 heures sur 24. A cette époque, l’existence de « l’humain » a été redéfinie.

Les voix de ces présentateurs sont enthousiastes et parlent des produits de manière fluide et claire. Si vous examinez attentivement ces visages parfaits et ces expressions et tons changeants, il peut être difficile de réaliser, après avoir regardé l'intégralité de la diffusion en direct, qu'il ne s'agit pas de vraies personnes, mais d'ancres humaines numériques pilotées par l'IA.

Les données montrent que les humains numériques virtuels occupent 22,7 % du marché des applications humaines numériques, se classant au premier rang dans le domaine du streaming en direct du commerce électronique, et que leur interactivité et leur fidélité s'améliorent constamment.

Aujourd'hui, Baidu a également présenté une nouvelle génération de personnes numériques Huiboxing lors de la conférence des développeurs d'IA Create2025 Baidu. Le fondateur de Baidu, Robin Li, a également proposé pour la première fois le concept de personnes numériques hautement persuasives.

Les présentateurs humains numériques ne sont enfin plus les « marionnettes rigides » qu'ils étaient autrefois, mais ont ouvert une nouvelle version, s'orientant vers ce que Robin Li disait : « Tout le monde est une équipe marketing ».

Le présentateur de l'IA a enfin appris à "agir"

"Comparable à de vraies personnes" semble être quelque chose que tous les gens du numérique font – mais ce n'est qu'en voyant réellement les cas que vous pouvez en ressentir le "caractère persuasif".

La haute fidélité n’est pas surprenante. Ce qui est vraiment surprenant, c'est qu'avec autant de mouvements, d'expressions et de réponses à diverses questions auxquelles il faut répondre à tout moment, les utilisateurs du numérique peuvent les compléter en douceur et sans aucune entrave – les produits de soins de la peau peuvent être essuyés d'un simple geste et les démonstrations peuvent être faites d'une simple pression de la main.

Il y a une conception derrière cette série d’actions. Cette fois, Huiboxing est passé du mode script au mode script. Le script détaillé guide non seulement ce que disent les personnages, mais conçoit également les scènes, les émotions, le ton, les actions, etc. Cela permet au ton, à l'expression et aux mouvements de l'humain numérique d'être hautement intégrés et unifiés, afin que l'humain numérique puisse combiner le contenu de manière fluide et fluide et accomplir des actions ensemble.

La réalisation du mode script s'appuie sur la « capacité de prise de décision » des personnes numériques. En d’autres termes, les personnes numériques d’aujourd’hui ne se contentent plus de reproduire l’image et la voix de véritables présentateurs, mais disposent également d’une série de capacités. Par exemple, en fonction de l'environnement de la salle de diffusion en direct, vous pouvez détecter les signaux et prendre des décisions et des réflexions, ainsi que la capacité de mettre en œuvre l'étape suivante.

Cette capacité est la clé d’une personne numérique « hautement persuasive ». L’utilisation d’humains numériques dans les diffusions en direct n’est pas inhabituelle en soi. Il s’agit également d’une direction d’application courante dans la mise en œuvre réelle de l’IA. Des ancres numériques sont déjà apparues sur les principales plateformes de commerce électronique. Mais à cette époque, juste pour que les gens du numérique aient l'air "pas plastiques" et "pas dramatiques", j'avais déjà fait de mon mieux.

De nos jours, alors que les applications deviennent de plus en plus courantes, les personnes numériques deviennent de plus en plus « en volume ». Créer des humains numériques pour les utilisateurs sur la base d'une technologie multimodale nécessite généralement l'intégration de multiples modalités telles que le texte, le ton, la vision, le mouvement et même la perception des émotions, ce qui entraîne des liens techniques complexes. Cela implique une fusion et une collaboration intermodales, une compréhension et une génération du langage naturel, une capture et une génération de mouvements, ainsi qu'une interaction en temps réel et une optimisation des délais.

Basé sur le turbo Wenxin 4.5, les gens du numérique Huiboxing se sont débarrassés de l'embarras du « faux à première vue » dans le passé. Les changements et améliorations du réalisme n'en sont qu'une partie : ce qui est vraiment décisif est sa capacité à penser de manière indépendante et à prendre des décisions, ainsi que ses capacités de planification multi-agents.

Ces capacités déterminent véritablement l’expérience du commerçant et testent la force technique qui les sous-tend.

Lorsque vous ouvrez une salle de diffusion en direct prise en charge par Huiboxing, vous verrez l'hôte tourner naturellement la tête, ramasser le produit, afficher les détails à 360 degrés et même les gestes et les expressions sont précis. Cet effet hyperréaliste a de quoi vous faire vous demander : « Est-ce vraiment de l'IA ?

C'est la définition de Baidu de la « haute persuasion » : en termes d'expérience utilisateur et de scénarios de diffusion en direct, les personnes numériques peuvent déjà atteindre une expressivité comparable à celle des personnes réelles, et même le taux de conversion dans certains scénarios peut dépasser celui des personnes réelles.

Un téléphone portable vous transforme en « usine d’ancrage »

L’essor des ancres humaines numériques découle de la demande de modèles d’exploitation efficaces et peu coûteux dans le secteur de la diffusion en direct du commerce électronique. Les présentateurs humains traditionnels sont confrontés à des coûts de main-d'œuvre élevés et à des heures de travail limitées, tandis que les présentateurs humains numériques peuvent réaliser une diffusion en direct ininterrompue 24 heures sur 24, ce qui améliore considérablement l'efficacité opérationnelle et permet de réduire les coûts et d'améliorer l'efficacité.

La « réduction des coûts » mentionnée ici signifie non seulement que les coûts de main-d'œuvre des présentateurs et des assistants de diffusion peuvent être économisés, mais inclut également une série de coûts d'apprentissage tels que l'installation et les tests.

En d'autres termes, les plates-formes et les entreprises technologiques ont travaillé dur pour peaufiner la technologie multimodale, mais les utilisateurs doivent également consacrer des efforts à l'apprentissage et à la recherche de diverses opérations et utilisations. Lorsque la démarche est trop lourde, elle est assez dissuasive.

Cette fois, la dernière version mobile de Baidu est équipée de ce qui pourrait être l'une des innovations les plus pratiques de l'industrie de la diffusion en direct : la fonction « démarrer la diffusion en un clic » .

Tant que vous vous inscrivez avec votre numéro de téléphone mobile et téléchargez une vidéo de 2 minutes, n'importe qui peut démarrer sa propre diffusion numérique en direct en un seul clic sur son téléphone mobile.

Cependant, ce n’est qu’un point de départ. Après avoir la voix de l'image du présentateur, il y a aussi l'environnement de la salle de diffusion en direct, notamment les différents scripts et supports pour différents types de produits… Ce sont les « seuils ».

La « diffusion en un clic » est véritablement un clic. Après avoir trouvé Huiboxing via l'application Baidu, vous pouvez voir directement les quatre types de scripts prédéfinis. Bien sûr, vous pouvez également rédiger le vôtre. Ces scripts prédéfinis sont la meilleure référence.

Imaginez qu'un vendeur de bijoux utilise différents styles pour présenter le même produit dans 10 salles de diffusion en direct en même temps – en utilisant un style scientifique pour expliquer ses connaissances en pierres précieuses, en utilisant un style littéraire pour raconter l'histoire de la marque de bijoux, en utilisant un style de vente pour toucher directement les points faibles des utilisateurs et offrir directement des réductions de prix.

La personnalisation des scripts en fonction de la personnalité de l'ancre et le renforcement du style de l'ancre sont les points forts de Huiboxing, notamment les modèles Wenxin 4.0, Wenxin 4.5 et DS-R1. Grâce à des explications simples et approfondies, la vulgarisation du contenu est améliorée, les utilisateurs restent plus longtemps et les conversions dans la salle de diffusion en direct sont allongées, et même les points chauds sur Internet peuvent être suivis en temps réel et les sujets d'actualité peuvent être intégrés dans les explications du produit.

Pour être honnête, bien que les ancres puissent être vues partout, l'expressivité de chaque ancre est différente, limitée par son niveau de connaissances et son niveau d'expression linguistique. Les humains numériques ne sont plus contraints par ces conditions. Leurs réserves de connaissances peuvent être illimitées et leurs capacités d'expression peuvent changer de manière flexible en fonction de situations spécifiques.

Une situation « contre-intuitive » est que certains commerçants de produits de santé et de bien-être préfèrent utiliser des humains numériques. Ping Xiaoli, vice-président de Baidu et directeur général du commerce électronique de Baidu, a mentionné que des mots interdits peuvent apparaître parce que les présentateurs en direct peuvent faire des lapsus. Les humains numériques peuvent obtenir un contrôle précis sous le principe de l’optimisation. Certains contenus verticaux peuvent être résolus en introduisant une base de connaissances.

La configuration de l'environnement correspondant, la génération de scripts et l'ajustement flexible de la méthode de diffusion en fonction des biens et des scènes peuvent véritablement et efficacement abaisser le seuil de la diffusion en direct. Qu’il s’agisse de vulgarisation de connaissances, de partage de vie ou de consultation émotionnelle, elle s’adapte parfaitement. Chaque utilisateur peut réaliser une transformation magnifique de « vidéo » à « clone d'ancre ». C'est la valeur et la signification la plus directe et la plus claire apportée par l'innovation technologique.

La diffusion en direct, le meilleur scénario pour la mise en œuvre de l'IA multimodale

Le dernier rapport d'IDC montre que Baidu Huiboxing se classe au premier rang en termes de force globale dans le domaine de la diffusion en direct du commerce électronique par des personnes numériques. Ce n’est pas un hasard : le commerce électronique en streaming en direct est exactement le scénario de mise en œuvre idéal pour la technologie d’IA multimodale. Ici, les expériences visuelles, auditives et interactives sont parfaitement intégrées et les multiples avantages de la technologie de l’IA sont pleinement exploités.

Pour le secteur de la diffusion en direct, déjà très compétitif, la technologie humaine numérique a apporté trois changements majeurs :

1. Une percée en termes d’échelle

Au cours de l'année écoulée, les ancres numériques de Huiboxing ont dépassé les 100 000, aidant les commerçants à augmenter leur taux de conversion moyen de 31 % et à réduire les coûts de lancement de 80 %. S'il se trouve sur le site Baidu, avec le support fourni par la plateforme, il peut être lancé presque gratuitement.

2. Un nouveau modèle de collaboration homme-machine.

Les personnes numériques ne remplacent pas simplement les véritables ancres, mais peuvent démanteler le travail d'ancrage d'origine et intégrer les processus d'origine. Dans les diffusions en direct traditionnelles, les opérateurs et les présentateurs doivent coopérer, ainsi que les assistants de diffusion, les contrôleurs de terrain, etc. Les personnes numériques équivalent à combiner ces rôles, ce qui ne peut pas être plus convivial pour les petites et micro-entreprises.

3. Allez chez les amateurs

Tout le monde n’est pas doué pour parler devant la caméra pendant trois ou quatre heures. Cependant, la technologie des personnes numériques a aidé davantage d’amateurs à bénéficier des avantages apportés par l’IA. Il n'est même plus limité aux « créateurs de vidéos », mais possède son propre « avatar d'ancre ». Les gens ordinaires peuvent également réaliser leur propre vie ininterrompue de 24 heures et diffuser leurs propres émissions en direct.

Parmi les nombreux scénarios d’application de la technologie d’IA multimodale, la diffusion en direct est peut-être le domaine qui reflète le mieux la valeur commerciale de la technologie. Après tout, aucun autre scénario ne peut imposer simultanément des exigences aussi élevées en matière de fidélité visuelle, de voix naturelle, d’interaction en temps réel et de création de contenu.

Cela reflète également que le plus grand point fort de Baidu Huiboxing est qu'il résout non seulement le problème de « ressembler à un humain », mais permet également aux humains numériques d'avoir la capacité de « penser » et de « collaborer ». Cela signifie que l’IA ne se contente pas d’imiter les humains, mais devient un agent intelligent capable de réagir de manière indépendante à diverses situations dans des scénarios de diffusion en direct.

Ensuite, les utilisateurs de diffusion en direct sont sur le point de faire face à une révolution interactive disruptive. Les humains numériques dotés d'un pouvoir de persuasion élevé peuvent répondre automatiquement, ajuster le matériel vidéo en fonction de l'atmosphère de la salle de diffusion en direct et même simuler des interactions d'échauffement avec de vraies personnes. Cette expérience intelligente remodèle les attentes des consommateurs en matière de diffusions en direct.

Pour les praticiens, l’assistance de l’IA permet aux professionnels de se concentrer sur la création de valeur fondamentale. Pour les amateurs qui attendent encore de voir, lorsque la technologie ne se limitera plus à quelques acteurs majeurs, mais deviendra un outil que tout le monde peut maîtriser, ce que Baidu promeut est une révolution démocratisée dans la création de contenu et l'expression commerciale.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo