Pour que le matériel d’IA entre réellement dans notre vie quotidienne, nous avons besoin d’un nouveau « moteur »

2025 est considérée comme la première année d'apparition des agents IA. Des entreprises technologiques comme OpenAI, Google et Microsoft prévoient que les agents intégreront le marché du travail et transformeront même les formes de travail.

Dans le même temps, des entreprises comme Google et OpenAI, dont les principaux produits sont des logiciels, ont également commencé à lancer davantage de matériel intelligent.

Ces deux événements ne sont pas des coïncidences isolées ; ensemble, ils pointent vers un signal clair.

Lors de la conférence « Force Power » de Volcano Engine il y a quelques jours, Wu Di, responsable de l'algorithme intelligent à grand modèle de Volcano Engine, a estimé que rendre les capacités d'IA accessibles aiderait à la mise à niveau complète du matériel IoT et du matériel léger, et que l'ensemble du système de valeurs matérielles pourrait également être remodelé .

En Chine, Volcano Engine, plateforme de services cloud et d'IA, n'est pas un fabricant de matériel traditionnel, mais participe à l'intégration de l'IA et des produits matériels d'une autre manière. Neuf des dix plus grands fabricants mondiaux de téléphones mobiles collaborent étroitement avec Volcano Engine, et son architecture collaborative cloud devient le « cerveau » et le « nerf » du matériel intelligent.

Lors de nos échanges avec des praticiens, nous avons constaté que les défis auxquels sont généralement confrontés les fabricants de matériel informatique lors de l'intégration de l'IA sont la fragmentation de l'écosystème du marché et les coûts de développement élevés. C'est également une raison importante pour laquelle certains matériels d'IA ont une durée de vie éphémère et ne deviennent jamais des appareils courants pour les utilisateurs.

Les concepts de « capacités atomiques » et d'« intégration cloud final » que Volcano Engine met en avant à plusieurs reprises dans ses solutions matérielles intelligentes touchent précisément le cœur du processus d'IA actuel des appareils IoT : comment briser les barrières entre la fin et le cloud et permettre aux capacités d'IA de circuler plus facilement vers chaque terminal matériel.

Un grand nombre de matériels AIoT constituent désormais un atout majeur pour les agents. Celui qui prend l'initiative de garantir la réponse complète des appareils pourra prendre la tête de ce marché émergent de l'AIoT.

Démonter la « puissance atomique » du moteur Volcano : la boîte à outils de l'AIoT

Un enfant de 3 ans a serré une peluche dans ses bras et lui a demandé : « Pourquoi le ciel est-il bleu ? » La peluche a immédiatement répondu d'une voix enfantine, adaptant son ton à l'expression de l'enfant. Il ne s'agit pas d'un film de science-fiction, mais d'une scène que des jouets IA comme Haivivi ont déjà réalisée.

Derrière cela se cache en fait la boîte à outils d'IA de Volcano Engine composée de « capacités atomiques », un concept proposé par Jiang Nan, responsable des solutions industrielles pan-Internet de Volcano Engine.

Jiangnan estime que les fournisseurs de technologie devraient « fournir des services de manière atomique et segmentée », c'est-à-dire diviser les capacités des grands modèles d'IA (tels que la voix, le langage, la multimodalité, etc.) en API/SDK standardisés et composables sur lesquels les partenaires peuvent s'appuyer de manière flexible.

Les capacités atomiques ne sont pas des points fonctionnels isolés, mais des « capacités en tant que service », qui non seulement améliorent la flexibilité de la coopération, mais abaissent également considérablement le seuil de développement pour les fabricants, favorisant ainsi l'innovation et la prospérité écologique de l'ensemble de l'industrie.

Les capacités atomiques de Volcano Engine sont comme des blocs Lego, offrant aux fabricants de matériel une boîte à outils intelligente presque « prête à l'emploi ».

iFan a trié les « capacités atomiques » que Volcano Engine a préparées pour le matériel intelligent :

  • Pouf grand modèle – le « cerveau intelligent » de l'appareil
  • Plateforme Coze – Un « incubateur rapide » pour les applications d’IA
  • Technologie ASR/TTS – un moteur vocal qui permet aux appareils d'« écouter et de parler »
  • Communication en temps réel RTC : connexion du cloud et des appareils à un « réseau neuronal à haut débit »
  • Modèle de langage visuel VLM – Le cerveau visuel qui aide les appareils à « comprendre le monde »
  • Appel de fonction – Un outil universel pour appeler des services externes

▲Une image pour comprendre la « boîte à outils » de Volcano Engine Atomic Power

Dans le domaine de l'IAoT, le rôle de Doubao Big Model va bien au-delà d'un simple chatbot. Outre sa capacité à reconnaître les intentions de l'utilisateur, il dispose de capacités de raisonnement logique de plus en plus poussées, permettant aux appareils d'effectuer un certain degré d'autonomie face à des scénarios complexes.

Dans le même temps, la prise en charge de l'interaction multimodale par le modèle Doubao signifie que les futurs appareils intelligents ne se limiteront plus à une simple saisie vocale ou textuelle, mais seront capables de traiter de manière exhaustive plusieurs informations telles que des images et des sons, ce qui pose les bases d'une interaction homme-machine plus naturelle et plus proche de la façon dont les humains communiquent.

Par exemple, le dernier modèle Flash Seed 1.6 de Doubao, en tant que modèle léger combinant langage et visuel, peut générer 100 jetons en 1 seconde, améliorant considérablement la vitesse de réponse de bout en bout.

Quant à la plateforme de développement d'agents d'IA KouZi, elle permet aux chefs de produit sans connaissances approfondies en programmation de créer rapidement des applications d'IA de A à Z. Elle offre un ensemble de modèles de développement « uniques », raccourcissant considérablement le cycle de la création au produit.

La fonctionnalité plug-in du bouton est particulièrement remarquable. Elle permet au corps intelligent d'interagir directement avec le monde physique. Par exemple, l'assistant IA peut non seulement répondre à la question « Quel temps fait-il aujourd'hui », mais aussi vous aider activement à allumer la climatisation et à la régler à la température appropriée. Cette fonctionnalité permet au matériel de passer d'une réponse passive à un service actif.

Lors de la communication, la reconnaissance vocale ASR et la synthèse vocale TTS permettent à l'appareil d'écouter et de parler. L'ASR du Volcano Engine reconnaît les commandes avec précision, même dans les environnements bruyants, et la synthèse vocale TTS rend la voix de l'appareil plus humaine et plus douce. Après la connexion de Tuya Smart, la précision de la reconnaissance vocale a augmenté de plus de 20 %.

Une autre technologie clé est la technologie de communication en temps réel RTC, qui est comme une « autoroute » reliant les appareils et le cloud, garantissant que les données audio et vidéo peuvent être transmises avec une faible latence et une grande stabilité.

C'est crucial pour les jouets IA : lorsqu'un enfant pose une question, s'il doit attendre 3 à 5 secondes pour obtenir une réponse, l'expérience sera considérablement réduite. Le moteur Volcano optimise le temps de réponse à moins d'une seconde, rendant la conversation aussi naturelle qu'une communication réelle.

Xing Xiaoci, responsable du matériel intelligent à grand modèle de Volcano Engine, a souligné que les performances en temps réel de bout en bout constituent le plus grand défi technique pour la mise en œuvre du matériel intelligent d'IA , en particulier dans les scénarios de raisonnement basés sur le cloud, où la vitesse de réponse affecte directement l'expérience utilisateur.

Grâce à l'optimisation intégrée au cloud final, Volcano Engine a considérablement amélioré la vitesse de réponse de l'interaction vocale de l'IA et a réalisé des conversations vocales en temps réel, la plus rapide ne prenant qu'une seconde et le temps moyen étant inférieur à 1,5 seconde.

Afin de permettre à l'appareil de « comprendre le monde », le modèle de langage visuel VLM permet à la caméra non seulement de « voir » l'image, mais aussi d'en « comprendre » le contenu. Par exemple, elle peut reconnaître les gestes et les expressions des enfants, ou analyser le contenu de l'image et répondre aux questions qui s'y rapportent. Tous les modules intelligents de Quectel sont connectés à cette fonctionnalité, permettant aux terminaux d'intégrer en toute transparence des fonctions d'IA multimodales.

L'appel de fonction est comme une télécommande universelle, permettant à l'IA d'appeler activement divers services externes – contrôler les appareils électroménagers, vérifier la météo, définir des rappels et d'autres opérations cohérentes peuvent tous être effectués en un seul clic.

La véritable compétitivité de la solution de Volcano Engine ne réside pas dans les « capacités atomiques » elles-mêmes, mais dans la manière d’intégrer organiquement ces capacités.

Jiangnan a déclaré à iFanr que l'ouverture des capacités atomiques permet à Volcano Engine de servir l'ensemble de l'écosystème matériel, y compris les fabricants de puces, les fabricants de machines complètes, les marques de terminaux, etc., formant un système d'autonomisation intégré « cloud + terminal » .

Un tel système de services complet de bout en bout couvre l'intégralité de la chaîne, de la collecte des données des appareils au traitement informatique en périphérie, en passant par le raisonnement à grande échelle dans le cloud. Ce « guichet unique » se distingue radicalement des pratiques des fournisseurs de services cloud traditionnels proposant des interfaces d'IA isolées.

Parallèlement, grâce à une coopération étroite avec des fabricants de modules de puces tels qu'Espressif, Broadcom Integrated Circuit, Quectel et Fibocom, Volcano Engine offre un ensemble complet de solutions « matériel + algorithme + plateforme ». Ce modèle de coopération permet aux fabricants de matériel d'intégrer plus facilement des fonctionnalités d'IA dans leurs produits.

Plutôt que de se présenter comme un fournisseur de technologies, Volcano Engine se présente comme un « groupe de conseil militaire en IA » accompagnant les fabricants de matériel. Non seulement il fournit des technologies, mais surtout, il combine librement la technologie de l'IA et l'expérience opérationnelle validée par ByteDance dans des produits C-end comme TikTok, tels des blocs de construction, pour soutenir les fabricants de matériel B-end.

La nouvelle vague de produits AIoT

Bien sûr, le véritable test se situe en première ligne du marché. Le squelette de l'architecture technique doit être mis en pratique avant de pouvoir être repensé. Le « modèle plus robuste, moins coûteux et plus facile à mettre en œuvre » que Volcano Engine a toujours mis en avant permettra-t-il réellement à ces produits AIoT de faire des vagues sur le marché ?

Haivivi n'est plus la « poupée intelligente » qui se contente de répéter des voix prédéfinies. Grâce à une interaction prolongée avec les enfants, elle peut mieux comprendre leurs expressions linguistiques légèrement immatures, voire atypiques, apprendre leurs centres d'intérêt et leurs préférences, leur proposer un accompagnement personnalisé et même les réconforter et les encourager lorsqu'ils sont déprimés. C'est pourquoi elle est très appréciée par de nombreux parents et enfants.

La clé réside dans la solution intelligente d'appareils interactifs audio et vidéo. Haivivi a créé un système interactif AIoT complet en intégrant en profondeur le modèle vocal Doubao du Volcano Engine et des « boutons » pour la construction d'agents.

Selon Gao Feng, co-fondateur de Haivivi, afin d'obtenir un effet interactif naturel, l'équipe Haivivi et les ingénieurs de Volcano Engine ont effectué des optimisations approfondies à plusieurs niveaux.

Par exemple, en termes de vitesse de réponse de l'interaction vocale, en optimisant le lien collaboratif de bout en bout, le délai de bout en bout entre la commande vocale de l'utilisateur et le retour du jouet est contrôlé à un niveau de pointe dans l'industrie et, dans certains scénarios, peut être atteint en 300 millisecondes.

▲Gao Feng, co-fondateur de Haivivi

Ce jouet compagnon IA peut raconter toutes sortes d'histoires captivantes avec passion et émotion. Il peut également servir de partenaire d'apprentissage de l'anglais pour les enfants, leur permettant de s'exercer à l'oral et de jouer à des jeux d'enchaînement d'expressions idiomatiques. Dans ces situations d'utilisation fréquentes, il est crucial que les enfants se sentent immergés dans la conversation.

Contrairement à des marques comme Haivivi qui ciblent directement les consommateurs C-end, Tuya Smart, en tant que fournisseur mondial de services de plate-forme de développement IoT, se concentre davantage sur la manière d'aider un grand nombre de développeurs grâce à sa coopération avec Volcano Engine.

Début 2019, Volcano Engine et Tuya Smart ont conclu un accord de coopération visant à intégrer pleinement le grand modèle Doubao à la plateforme cloud de développement d'IA de Tuya, et à promouvoir conjointement la mise en œuvre à grande échelle de grands modèles d'IA et de technologies cloud natives dans de multiples scénarios. Ce partenariat s'apparente à l'App Store sur le marché de l'AIoT.

Un axe important de la coopération entre les deux parties concerne le domaine des jouets IA. Les développeurs peuvent ainsi intégrer et exploiter plus facilement des fonctionnalités IA multimodales telles que l'audio, la vidéo, l'image et le texte sur la plateforme Tuya.

Cela signifie que même les développeurs de jouets de petite et moyenne taille peuvent doter leurs produits de fonctions d'interaction IA avancées à un seuil inférieur et à une vitesse plus rapide, et avoir la possibilité d'incuber des produits populaires plus naturels et plus intéressants comme Haivivi.

Les jouets ne sont pas les seuls à voir leurs anciennes catégories remodeler leurs expériences grâce à l'IA. Les téléviseurs, dont le taux d'ouverture a diminué ces dernières années, commencent également à évoluer.

Si les utilisateurs souhaitent trouver un film mettant en vedette une certaine star à la télévision, ils doivent cliquer sur la télécommande couche par couche et naviguer dans des menus complexes.

Il vous suffit désormais de dire « Je veux regarder le film de xx » pour que le téléviseur trouve instantanément les vidéos correspondantes et génère intelligemment un mur d'affiches exclusif. Le temps de réponse est d'une seconde.

Dans son discours à la « Force Conference », Guo Shangfeng, président du Skyworth Research Institute et directeur technique de Coocaa, a souligné un point simple mais essentiel : le retour d'information en temps réel est au cœur de l'interaction utilisateur à haute fréquence.

▲ Guo Shangfeng, directeur du Skyworth Research Institute et CTO de Coocaa

Coocaa qualifie l'expérience interactive TV décrite ci-dessus de « corps super intelligent ». Elle repose sur la compréhension sémantique et les capacités de génération personnalisée du grand modèle Doubao, qui comprend mieux les préférences visuelles de l'utilisateur, puis intègre en profondeur la technologie d'interaction vocale de Volcano Engine pour obtenir des dialogues naturels et fluides, simplifiant ainsi le mode d'interaction complexe du téléviseur, qui repose sur la télécommande pour cliquer couche par couche.

Ce service personnalisé s'étend à de nombreux secteurs d'activité, tels que l'éducation, la santé et les services à la personne. Guo Shangfeng a révélé que la bibliothèque d'images IA de Coocaa pouvait générer des histoires personnalisées en 12 secondes, augmentant ainsi le taux d'activité quotidien de l'utilisateur de plus de 60 %.

Si les jouets intelligents et les écrans intelligents sont les mises à niveau intelligentes de l'AIoT sur le marché existant, alors les lunettes AR (réalité augmentée) représentent la combinaison de l'IA et du matériel, et ont un grand potentiel pour créer des marchés incrémentiels et explorer la prochaine génération de terminaux personnels.

Wang Junjie, vice-président de Rokid et directeur du XR Center, estime que les lunettes AR devraient devenir la prochaine génération de terminaux d'information personnels, qui peuvent considérablement améliorer l'efficacité et l'expérience de l'interaction d'information dans le monde tridimensionnel.

La concrétisation de cette vision nécessite notamment une intégration poussée de l'informatique spatiale et de l'IA multimodale. Rokid est actuellement pleinement intégré au modèle d'IA multimodale de Doubao.

▲Wang Junjie, vice-président de Rokid et directeur du XR Center

En tant que l'une des entreprises leaders dans le domaine de la réalité augmentée nationale, la coopération de Rokid avec Volcano Engine nous révèle le rôle clé que l'IA peut jouer à l'ère de l'informatique spatiale.

Selon Wang Junjie, grâce à la recherche et au développement conjoints avec Volcano Engine Doubao Big Model, Rokid a non seulement optimisé la liaison de données de l'assistant IA intégré dans ses lunettes AR, amélioré la précision de la reconnaissance vocale et la profondeur de la compréhension du langage naturel, mais plus important encore, il peut combiner les capacités de compréhension multimodale de Doubao Big Model pour mieux intégrer et superposer les résultats d'analyse de l'IA avec l'environnement physique réel de l'utilisateur, améliorant ainsi l'expérience globale des applications AR.

Par exemple, lorsqu'un utilisateur porte des lunettes AR et voit un tableau, l'assistant IA peut non seulement identifier les informations sur le tableau, mais également recommander des expositions d'art associées en fonction des préférences de l'utilisateur ; ou dans un scénario industriel, les lunettes AR peuvent identifier les pannes d'équipement en temps réel et superposer des guides de maintenance sous la forme d'un modèle tridimensionnel devant les travailleurs.

Des jouets intelligents capables de « lire » les émotions des enfants, aux majordomes de salon capables de prédire les besoins des utilisateurs, en passant par les lunettes AR qui intègrent de manière transparente les mondes virtuel et physique, une nouvelle vague de produits AIoT a commencé à émerger sur le marché du matériel mature.

Construire la « nouvelle infrastructure » à l'ère de l'IA

Ce que Volcano Engine fait sur le matériel intelligent est une voie légèrement différente dans le monde d'aujourd'hui où les paramètres des modèles et les itérations des algorithmes montent en flèche : il veut être bien plus qu'un simple « fournisseur de technologie » pour le matériel, et il ne se contente pas de former un modèle plus performant pour « passer des examens » ou un robot plus performant pour « discuter ».

Dans le scénario de Volcano Engine, l'IA doit véritablement « passer à l'action », avec un grand nombre d'appareils AIoT naturellement intégrés dans la vie des utilisateurs, devenant un partenaire perspicace, réfléchi et chaleureux.

Afin d'intégrer l'IA dans des terminaux à faible puissance de calcul, ils ont même compressé le SDK du terminal dans un appareil à faible consommation avec seulement 100 Ko de mémoire, de sorte que le matériel valant seulement quelques centaines de yuans puisse également avoir un « cerveau intelligent ».

Derrière cela se cache un perfectionnement presque rigoureux de l'architecture collaborative du cloud final et la quête ultime de maîtrise des coûts. Lorsque le coût du raisonnement sur les grands modèles sera considérablement réduit, l'IA ne sera plus le « jouet exclusif » de quelques géants, mais sera véritablement appelée à « entrer dans le quotidien des particuliers ».

Volcano Engine a récemment lancé le service MCP. Les entreprises traditionnelles et les start-ups encore novices en matière d'IA pourront utiliser ce service pour installer rapidement, facilement et à moindre coût des moteurs d'IA sur leurs produits, et ainsi passer d'un simple téléphone classique à un smartphone en un clic. Comme l'a mentionné Xing Xiaoci dans son partage :

De nouveaux services tels que MCP abaissent encore davantage le seuil de développement global et augmentent la limite supérieure de l'intelligence, rendant les expériences d'IA plus complexes et plus intelligentes largement applicables à divers secteurs.

Cette intégration du matériel et de l'IA ne consiste pas seulement à fournir une interface API, mais un service complet allant de la « puce » à la « vente » :

Depuis les « plats durs » technologiques sous-jacents tels que le grand modèle Doubao et la communication en temps réel RTC, jusqu'à la plate-forme de développement « plat rapide » d'applications d'IA telles que Button, puis jusqu'à l'intégration de fabricants de modules de puces tels que Broadcom Integrated et Fibocom pour optimiser ensemble, nous pouvons même vous aider à vous connecter aux canaux de commerce électronique pour « apporter des marchandises ».

Cette boucle écologique complète, de la technologie de base aux applications de haut niveau, ne constitue pas une simple extension métier, mais plutôt une redéfinition de l'infrastructure. Xing Xiaoci nous a expliqué que le matériel intelligent évolue d'une approche « fonctionnelle » vers une approche « orientée services » .

Ainsi, qu'il s'agisse de logiciels ou de matériel, Volcano Engine semble tenter de construire une « nouvelle infrastructure » à l'ère de l'IA .

Dans le contexte d'une IA en constante évolution, non seulement nos méthodes de travail vont évoluer, mais le marché du matériel intelligent devrait également connaître une refonte, ouvrant un nouveau paysage concurrentiel. Sur ce nouveau terrain, Volcano Engine est déjà en pleine effervescence, et de nouveaux fabricants se joignent à la course.

Nous pourrions également nous attendre à une nouvelle vie après l'émergence de ces produits AIoT : l'architecture technique de la fusion multimodale, la collaboration en cloud final et les capacités de service autonome basées sur des agents, permettant au matériel intelligent de passer à la prochaine dimension de « l'intelligence » : comprendre véritablement les utilisateurs, être plus personnalisé et passer d'un service passif à un service actif.

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo