Sous la vague de DeepSeek, le catalyseur d’innovation de l’IA end-side

Il y a une histoire métaphorique sur la grotte dans "La République" de Platon. Un groupe de prisonniers ont été enfermés dans une grotte depuis leur enfance, face au mur, avec un feu derrière eux. Tout au long de leur vie, les prisonniers n'ont vu que des ombres se refléter sur le mur, et ils pensaient que ces ombres étaient le monde réel.

De grands modèles ont également été induits en erreur par des « ombres » similaires et considéraient autrefois la pré-formation qui peut produire des miracles comme la norme. Jusqu’aux capacités de raisonnement démontrées par DeepSeek R1 début 2025, l’IA est passée du stade de la simple observation des ombres à l’exploration des véritables connaissances de manière introspective et dialectique.

DeepSeek permet aux modèles de sortir de la « grotte » et change également le paradigme des terminaux intelligents.

Le modèle de distillation DeepSeek a été mis en œuvre sur des terminaux commerciaux équipés de la plate-forme Snapdragon moins de deux semaines après sa sortie. Le matériel d'IA ne sera plus seulement une « histoire sexy » pour augmenter la valorisation, mais a déjà une réelle valeur d'application et un potentiel commercial.

Le dernier livre blanc de Qualcomm « AI Transformation is Promoting Terminal-Side Inference Innovation » souligne que le lancement de DeepSeek marque l'entrée de l'IA dans l'ère de l'innovation en matière d'inférence. La réduction des coûts de formation, le déploiement rapide de l'inférence et l'innovation pour les environnements Edge entraînent la prolifération de petits modèles de haute qualité et accélèrent le déploiement de l'IA sur les terminaux Edge.

Liu Zhiyuan, professeur agrégé à l'Université Tsinghua et co-fondateur et scientifique en chef de Wall-Facing Intelligence, a également proposé que ce passage de « l'échelle d'abord » à « l'efficacité d'abord » soit une source d'inspiration importante pour l'IA sur appareil : grâce à la compression du modèle, à l'optimisation des paramètres et à l'innovation des algorithmes, il est possible de réduire considérablement les besoins en ressources informatiques tout en maintenant les performances du modèle, le rendant ainsi adapté à son exécution sur les appareils terminaux.

Le modèle Qwen-7B distillé à l'aide de DeepSeek a pu fonctionner à égalité avec le modèle cloud GPT-4o le plus avancé lancé l'année dernière.

Cela signifie également que de nombreux modèles qui ne pouvaient auparavant exécuter des paramètres à grande échelle dans le cloud peuvent être déployés sur des terminaux portables pour mener à bien des processus de raisonnement complexes localement, et peuvent même fonctionner à pleine capacité. Dans le même temps, avec la nouvelle vague d’IA intégrée aux appareils, nous assistons à une autre transition clé dans les terminaux intelligents : des appareils purement fonctionnels vers des agents dotés de capacités de compréhension et d’action autonomes.

Le point d’inflexion technologique de l’IA sur appareil : de « l’échelle d’abord » à « l’ère de l’innovation par inférence »

Il y a deux ans, Bill Gates a publié un blog, affirmant qu'il avait été témoin de deux démonstrations révolutionnaires au cours de sa vie. La première avait eu lieu en 1980, lorsqu'il avait vu l'interface utilisateur graphique (GUI), le prédécesseur des systèmes d'exploitation modernes, et l'autre, lorsqu'il avait vu la façon dont l'IA répondait quelques mois avant GPT-3.5.

Cependant, en tant qu'utilisateurs ordinaires, la perception de ce changement n'est évidemment pas si forte, car le porteur de changements interactifs ne peut être séparé des terminaux intelligents, tout comme l'iPhone a transformé les opérations sur les boutons à l'ère des téléphones multifonctions en interaction tactile, remodelant ainsi l'ensemble de l'écosystème des smartphones.

Alors quel est ce transporteur à l’ère de l’IA ?

Il ne s'agit peut-être pas nécessairement d'une nouvelle forme de terminal, mais d'une nouvelle forme d'expérience apportée par les terminaux intelligents – de l'application à l'agent.

Tout comme la nouvelle tendance évoquée par le PDG de Qualcomm, Anmon, à la fin de l'année dernière, l'IA est la nouvelle interface utilisateur (UI). La mise en œuvre de l’IA end-side modifiera la logique d’interaction traditionnelle.

L'utilisateur n'a pas besoin d'ouvrir une application spécifique et l'agent IA peut effectuer directement des tâches via une entrée multimodale (voix, image, vidéo). Ces fonctions sont en réalité indissociables de la prise en charge de l’IA en périphérie.

Par exemple, de nombreuses fonctions interactives de l'agent YOYO de la série Honor Magic7 nécessitent la prise en charge des capacités de traitement de l'IA du côté du terminal. Le NPU Qualcomm Hexagon équipé du Snapdragon 8 Extreme Edition fournit une puissance de calcul d'IA suffisante pour que le côté du terminal puisse effectuer des tâches d'IA telles que le raisonnement et la compréhension localement sur le téléphone.

Dans le passé, l'IA côté appareil était limitée par les performances matérielles, mais les exigences informatiques pour les grands modèles augmentent rapidement. Même si les smartphones équipés de Snapdragon 8 Extreme Edition ont pu exécuter des modèles à l'échelle 7B sur l'appareil, certains cas d'utilisation et tâches complexes de l'IA générative, telles que la génération d'images de haute qualité, doivent encore être combinés avec la puissance du cloud computing.

Cependant, le point d'inflexion technique de l'IA côté appareil est désormais apparu. Le livre blanc « AI Transformation is Promoting Terminal-Side Reasoning Innovation » souligne quatre tendances majeures pour accélérer la mise en œuvre de l'IA côté appareil :

  1. Les petits modèles d'IA avancés actuels offrent déjà d'excellentes performances grâce à la distillation des modèles et à la nouvelle architecture réseau, les performances ont dépassé les modèles plus grands qui ne pouvaient fonctionner dans le cloud qu'il y a un an.
  2. La taille des paramètres du modèle diminue rapidement, et les techniques avancées de quantification et d'élagage permettent aux développeurs de réduire la taille du modèle tout en conservant la précision.
  3. Les développeurs peuvent créer des applications plus riches en périphérie, telles que la synthèse de texte, les assistants de programmation et la traduction en temps réel.
  4. Laissez Agent devenir un nouveau portail d'interaction et des agents d'IA multimodaux personnalisés simplifieront l'interaction

Ma Dejia, vice-président senior et directeur général de la planification technologique et des solutions de pointe de Qualcomm Technologies, a déclaré à iFaner qu'à mesure que l'échelle des modèles continue de diminuer, les modèles avec une échelle de paramètres de 1 à 2 milliards à l'avenir occuperont moins de mémoire courante et s'adapteront mieux aux terminaux avec des paramètres de mémoire de 8 à 12 Go.

Architecture informatique hétérogène : le fondement matériel de l'IA end-side

Qualcomm Technologies dispose de trois unités de processeur de pointe, qui sont très importantes pour le développement de l'IA finale.

Ma Dejia a déclaré : « Nous disposons de processeurs Qualcomm Oryon personnalisés de pointe et nous les avons appliqués à nos plates-formes PC, mobiles et automobiles. »

Le GPU Qualcomm Adreno peut répondre aux nombreuses exigences fonctionnelles requises pour le fonctionnement de l'IA côté terminal ; de plus, le NPU Qualcomm Hexagon est entièrement conçu pour gérer les charges de travail d'IA génératives.

Ces trois unités de processeur majeures doivent avoir des capacités de pointe et être capables de travailler ensemble pour réaliser un calcul hétérogène et répondre aux besoins de développement de l'IA générative. Qualcomm dispose d'un très fort avantage dans ce domaine.

La mise en œuvre de l'IA côté terminal a mis en avant des exigences plus élevées en matière d'architecture de puce. L'approche de Qualcomm consiste à intégrer le NPU, le GPU et le CPU dans l'architecture informatique hétérogène du terminal, produisant ainsi une puissance de calcul plus élevée avec une consommation d'énergie inférieure et répondant aux besoins des tâches de traitement de l'IA dans différents scénarios.

Le cœur de cette architecture est la collaboration entre les trois principales unités de processeur à la manière d'un orchestre symphonique :

  1. Processeur Oryon développé par Qualcomm : le dernier processeur Oryon de deuxième génération utilise le processus 3 nm de TSMC, avec une fréquence principale maximale de 4,32 GHz et une conception de grand cache (le plus grand cache L2 de 24 Mo du secteur) pour réduire considérablement la latence d'inférence de l'IA.
  2. GPU Qualcomm Adreno : répond aux diverses exigences fonctionnelles des opérations d'IA côté terminal et fonctionne particulièrement bien en calcul parallèle et en traitement d'images.
  3. Qualcomm Hexagon NPU : conçu spécifiquement pour gérer les charges de travail d'IA génératives, permettant au Snapdragon 8 Extreme Edition d'obtenir une amélioration de 45 % des performances de l'IA et une amélioration de 45 % de l'efficacité énergétique de l'IA.

Parmi eux, le processeur Oryon est réutilisé dans les téléphones mobiles et les puces automobiles. Cela signifie que ces terminaux peuvent utiliser une architecture sous-jacente commune, avoir une meilleure compatibilité et que l'interconnexion les uns avec les autres sera plus fluide.

Cette architecture informatique hétérogène s'est reflétée dans bon nombre des derniers téléphones phares du Snapdragon 8 Extreme Edition. iQOO 13 utilise la puissance de calcul de l'IA du Snapdragon 8 Extreme Edition pour créer un moteur de signal IA pour les sports électroniques. Il optimise intelligemment le réseau grâce à l'IA pour obtenir une latence plus faible dans les scénarios multitâches.

REDMI K80 Pro applique la technologie IA à l'expérience de connexion, apportant l'intégration multi-réseau Xiaomi Star AI, qui peut effectuer une prédiction intelligente du signal et optimiser automatiquement le réseau. Dans la scène du métro, le taux de décalage vidéo WeChat est réduit de 31 % et le taux de décalage vidéo court est réduit de 29 %.

Si les terminaux intelligents sont entrés dans l'ère des agents, alors l'architecture informatique hétérogène est le « système nerveux central » de l'agent intelligent. Elle traite non seulement diverses informations sensorielles, mais coordonne également la « pensée » et l'« action » pour assurer le fonctionnement efficace, fluide et stable de l'IA terminale.

Le logiciel est également la clé pour libérer le potentiel de l’IA end-side

Tout comme les courses de haute performance nécessitent non seulement un moteur puissant, mais aussi un réglage précis et un excellent pilote. La mise en œuvre de l’IA sur appareil repose non seulement sur une puissante puissance de calcul matérielle, mais nécessite également une prise en charge efficace et complète des outils logiciels.

Pour les développeurs, il n'est en fait pas nécessaire de connaître les détails spécifiques de conception du matériel. Ce qui est plus important est la prise en charge de la bibliothèque d'outils logiciels, qui leur permet de choisir librement et de manière flexible le framework, le runtime et les outils requis en fonction de leurs propres besoins, et de concevoir des applications et des agents d'IA pour n'importe quel système d'exploitation.

Tout en fournissant la base matérielle, Qualcomm construit également une pile logicielle d'IA, comprenant des bibliothèques, des SDK et des outils d'optimisation, qui peuvent simplifier le déploiement de modèles et améliorer les performances.

Les développeurs peuvent utiliser ces ressources pour adapter efficacement les modèles aux plates-formes Qualcomm et réduire les délais de commercialisation des applications basées sur l'IA. Quelle que soit la puissance de calcul de l’IA end-side, elle ne peut être déployée que via des applications et finalement transformée en expérience utilisateur.

Dans les applications pratiques, vous pouvez décrocher le téléphone pour identifier les ingrédients que vous utiliserez pour cuisiner. Après une identification réussie, le téléphone peut vous aider à générer les recettes correspondantes, et vous pouvez également demander au téléphone de vous proposer des combinaisons de menus faibles en calories.

Après la cuisson, vous pouvez utiliser l'appareil photo pour interroger votre téléphone sur les calories contenues dans les aliments. Les smartphones prenant désormais en charge les capacités d’IA multimodale, ce cas d’utilisation peut être entièrement mis en œuvre du côté de l’appareil.

Ce scénario est une application typique des agents intelligents en tant que nouvelle plate-forme : les utilisateurs n'ont plus besoin d'ouvrir plusieurs applications, mais peuvent directement effectuer des tâches complexes grâce à des interactions naturelles.

Cette stratégie centrée sur les développeurs a considérablement simplifié le processus d’intégration des fonctionnalités avancées d’IA dans les produits grand public et commerciaux, et accélère également l’application de l’innovation du raisonnement IA du côté des appareils.

AI Hub devient un coffre au trésor pour les développeurs

À l'heure actuelle, de nombreux fabricants de smartphones, de PC et d'automobiles ont intégré DeepSeek dans leurs terminaux et ont commencé à utiliser de petits modèles de haute qualité pour améliorer l'expérience de l'IA côté terminal ou créer de nouvelles applications d'IA. L’innovation dans les applications d’IA de pointe est prête à décoller.

Si vous êtes développeur, il existe également un besoin plus urgent de déploiement de l’IA sur des plates-formes de puces dans différents segments. Le Qualcomm AI Hub lancé par Qualcomm l'année dernière a fait un grand pas en avant, permettant aux développeurs de choisir la plate-forme et le modèle de développement correspondants, d'écrire des applications et enfin de les déployer sur différents types de terminaux mobiles.

Qualcomm AI Hub contient plus de 100 modèles d'IA pré-optimisés, tels que Llama, Allam 3B, Tongyi Qianwen, OpenAI et d'autres modèles de fabricants, et prend en charge un déploiement transparent sur les terminaux équipés de la plate-forme Snapdragon. Un an après sa sortie, plus de 1 500 entreprises l'utilisent actuellement , favorisant ainsi la vulgarisation des applications d'IA côté appareil.

Les terminaux couverts par AI Hub sont également en augmentation. Ma Dejia nous a présenté que Qualcomm AI Hub peut prendre en charge les plates-formes de terminaux mobiles, PC, IoT, automobiles et même Wi-Fi, telles que la plate-forme Qualcomm Robot RB3 de deuxième génération, une plate-forme robotique pour le domaine de l'IoT.

Qualcomm est en train de devenir un constructeur d'écosystème d'IA côté appareil. Grâce à une coopération active avec les fabricants mondiaux de modèles d'IA, Qualcomm fournit non seulement une plate-forme informatique puissante, mais développe également une pile logicielle complète et des outils de développement, permettant aux développeurs d'intégrer plus facilement des modèles d'IA dans les applications.

Avant que l’ère Agent des terminaux intelligents n’arrive réellement, l’industrie doit créer un écosystème complet d’IA côté appareil.

Qualcomm devient l'architecte en chef de l'IA côté appareil

Sous la dynastie Sui en Chine, Yu Wenkai, un expert en ingénierie de construction jouissant d'une longue réputation, est né. Il a non seulement planifié un réseau de voies navigables allant du nord au sud, mais a également conçu de manière innovante un système d'écluses pour navires pour résoudre le problème technique du passage des navires entre différents niveaux d'eau. Utilisez la pensée systématique selon laquelle « le général prospérera, le blocage diminuera » pour intégrer les rivières dispersées dans un réseau de transport interconnecté.

Ceci est assez similaire à la base informatique unifiée et efficace fournie par Qualcomm pour l’IA côté appareil. Tout comme la construction du Grand Canal a nécessité de relever de nombreux défis tels que le terrain et l'hydrologie, l'IA embarquée est confrontée à des demandes plus diverses et plus complexes de la part de différents terminaux et de différents scénarios d'application. Cela inclut non seulement les limitations de performances matérielles, mais également de multiples contraintes telles que la taille du modèle, la consommation d'énergie et la latence.

Pour véritablement intégrer l'IA dans ces divers terminaux, tout comme Yu Wenkai a planifié le Grand Canal, un « architecte en chef » est nécessaire pour réaliser une conception de haut niveau et créer une architecture sous-jacente puissante pour soutenir son fonctionnement efficace. Cette architecture doit non seulement être capable de gérer des quantités massives de données, mais également de s'adapter de manière flexible à divers scénarios d'application.

Cette progression du concret à l’abstrait, de l’ingénierie à la technologie reflète en réalité le contexte fondamental du développement de la civilisation humaine.

L'essence de l'héritage de la civilisation humaine est le processus de distillation de l'information. De la copie mot à mot au Moyen Âge et à la structure systématique de l'ère de l'information, jusqu'à l'ère du raisonnement de l'IA, le raffinement de l'information a pris une nouvelle forme : les modèles développent des capacités de raisonnement grâce à l'apprentissage par renforcement, comme les bébés comprennent le monde grâce à une auto-exploration continue.

Comme le Qualcomm AI Hub mentionné précédemment, la bibliothèque de modèles pré-optimisés qu'il construit permet aux développeurs d'appliquer des modèles adaptés aux terminaux à la base technique des téléphones mobiles, PC, voitures et autres terminaux Qualcomm.

L’allègement des modèles est la clé de la vulgarisation de l’IA end-side. Les modèles de distillation DeepSeek peuvent déjà être exécutés directement sur les smartphones et les PC de la plateforme Snapdragon. Cette avancée technologique est similaire à la conception des portes économes en eau du projet du Grand Canal, qui permet d'obtenir une efficacité de trafic maximale avec une consommation de ressources minimale.

Dans le même temps, l’innovation dans le raisonnement de l’IA explose.

Le cabinet de recherche Counterpoint Research prédit que 2025 sera un point d’inflexion clé pour les téléphones à IA générative.

La technologie d’IA générative devient une fonctionnalité standard des téléphones mobiles milieu et haut de gamme. Le taux de pénétration mondial des téléphones mobiles à IA générative devrait passer de 19 % en 2024 à 29 % en 2025, avec des expéditions d'environ 400 millions d'unités. D'ici 2027, les expéditions de téléphones mobiles à IA générative devraient atteindre 550 millions d'unités (représentant 43 % du marché global).

En outre, la taille des puces d’IA de pointe mondiales devrait passer de 7,6 milliards de dollars américains en 2023 à 25,2 milliards de dollars américains en 2027 (TCAC de 27,1 %), l’automobile, l’IoT industriel et les soins médicaux étant les principaux domaines de croissance.

Qualcomm est en train de devenir l'architecte en chef de l'IA de bout en bout.

Les capacités de l'IA end-side sont injectées dans tous les recoins du terminal, des smartphones aux voitures, des casques XR aux PC. Un « Grand Canal » technologique se forme qui connecte les différents terminaux et favorise la libre circulation de l'intelligence.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo