L’iPad peut également exécuter des modèles de niveau GPT-4o. Le nouveau modèle de petit canon en acier domestique pourrait rendre le matériel d’IA inutile.
Lors du salon CES 2025 qui vient de se terminer, des milliers de produits matériels d'IA ont confirmé une tendance incassable du secteur, à savoir que l'IA passe du cloud à tous les appareils qui nous entourent avec un élan écrasant, et chaque vague devient de plus en plus grande.
On peut dire que l’IA n’est plus un avantage pour les produits, mais la base des capacités des produits.
Pour les fabricants traditionnels qui ont consacré beaucoup d’efforts au matériel, il n’est pas facile d’installer l’IA dans de petits terminaux. Heureusement, le secteur des services de modèles d'IA s'est progressivement différencié en deux voies claires : l'IA cloud et l'IA sur appareil.
Dans le premier domaine, les fabricants représentés par OpenAI sont connus de tous depuis longtemps, et dans le second, une entreprise attire particulièrement l'attention : l'intelligence murale. Ils ont parié depuis le début sur la voie de l’IA côté appareil, et ils sont désormais devenus un acteur important incontournable dans ce domaine.
Aujourd'hui, Face Wall Intelligence a également officiellement lancé un nouveau modèle MiniCPM-o 2.6.
Avec seulement 8 milliards de paramètres, il peut regarder des vidéos, écouter des sons, lire du texte et parler avec éloquence comme les humains. De plus, sa réponse est aussi rapide que celle des humains, avec presque aucun décalage. En termes plus courants, il peut voir avec ses yeux, écouter avec ses oreilles, parler avec sa bouche et penser avec son cerveau comme un être humain.
Adresse open source MiniCPM-o 2.6 :
GitHub https://github.com/OpenBMB/MiniCPM-o
Visage câlin :https://huggingface.co/openbmb/MiniCPM-o-2_6
Vraie vidéo, pas une maquette de photo
Quand on dit que MiniCPM-o 2.6 est un « vrai modèle vidéo », ce n’est pas un discours vide de sens. En tant que première IA locale au monde à atteindre le niveau GPT-4o, elle démontre des capacités de perception complètes au-delà des modèles cloud.
Dans la démo officielle, lorsque vous jouez au jeu « Three Immortals Return to the Cave », il peut suivre la position de la balle avant que le public ne pose des questions lors du jeu de cartes mémoire, il peut se souvenir avec précision du motif et de la position de chaque carte ; .
Comparé à certains modèles ou produits sur le marché qui prétendent prendre en charge la compréhension vidéo en streaming en temps réel, MiniCPM-o 2.6 peut percevoir les images et les sons avant que l'utilisateur ne pose des questions, lui permettant d'entendre, de voir et de ressentir, et se rapproche de l'interaction visuelle naturelle de l'œil humain.
Cette capacité d’observation continue et de compréhension en temps réel est quelque chose que d’autres grands modèles photo ne peuvent pas atteindre.
Parlons des sons. MiniCPM-o 2.6 peut non seulement comprendre la parole humaine, mais également distinguer les sons de fond autres que les voix humaines, tels que le déchirement du papier, le versement d'eau, la collision métallique et d'autres sons. Et même GPT-4o ne peut pas faire ça.
Le même « Bonjour » prononcé sur des tons différents peut être une salutation chaleureuse ou une réponse froide.
La communication entre les humains et l’IA devrait être si naturelle.
Le processus des modèles d'IA traditionnels ressemble un peu à une autre forme de « traduction », transformant d'abord les sons en texte, puis transformant à nouveau le texte en sons. De cette façon, des caractéristiques subtiles telles que l’accent et l’émotion de l’orateur sont perdues.
Mais MiniCPM-o 2.6 est différent.
Tout comme l’oreille humaine, elle peut directement capturer et comprendre divers détails du son. Non seulement cela, mais il peut ajuster l'émotion et le style du son selon les besoins, et peut même imiter des sons spécifiques ou créer des sons entièrement nouveaux basés sur des descriptions.
Les excellentes performances du MiniCPM-o 2.6 dans la vie réelle ont également été bien quantifiées sur la liste des tests de référence, et il a atteint tous les SOTA dans le « triathlon » audiovisuel :
MiniCPM-o 2.6 a atteint le modèle open source SOTA entièrement modal en streaming en temps réel, et ses performances sont comparables à celles de GPT-4o et Claude-3.5-Sonnet, qui représentent le plus haut niveau mondial en termes de voix, il a atteint la compréhension ; et la génération de double SOTA open source, en s'efforçant d'obtenir le modèle universel de voix open source le plus puissant ; dans le domaine de la vision où les avantages ont toujours été importants, il est fermement établi comme le modèle général de vision de bout en côté le plus solide.
Sur StreamingBench, une liste représentative des capacités de compréhension de vidéos en streaming en temps réel, les performances de MiniCPM-o 2.6 sont également comparables à celles de GPT-4o et Claude 3.5 Somnnet. Il convient de noter que l'API GPT-4o ne peut pas saisir simultanément la voix et la vidéo. Actuellement, l'évaluation quantitative saisit le texte et la vidéo.
En termes de compréhension de la parole, il surpasse Qwen2-Audio 7B et réalise le modèle général open source SOTA (y compris ASR, description vocale et autres tâches) ; en termes de génération de parole, MiniCPM-o 2.6 surpasse GLM-4-Voice 9B et réalise ; le modèle général open source SOTA.
De « utilisable » à « facile à utiliser », nous avons fait face au mur et avons tracé notre propre chemin
Le lancement de MiniCPM-o 2.6 est indissociable de ses avancées technologiques en matière de compression de modèles, d'adaptation matérielle et d'architecture de streaming entièrement modale.
- Architecture de streaming entièrement modale de bout en bout : basée sur le modèle 4B de MiniCPM 3.0, le traitement unifié de la vision et de la voix est obtenu grâce à une conception modulaire. Les modules sont connectés de bout en bout pour assurer la transmission sans perte des informations multimodales et améliorer le naturel du contenu généré.
- Technologie de concurrence modale à faible latence : utilise de manière innovante la technologie de multiplexage temporel pour diviser le signal d'entrée en tranches de temps pour un traitement parallèle. Une sémantique intelligente est utilisée pour déterminer l'heure de fin de la saisie de l'utilisateur, réduisant ainsi efficacement les délais de réponse du système.
- Apprentissage de flux entièrement modal de bout en bout : basé sur la théorie du comportement de la parole, le modèle ne se contente pas de traiter les informations, mais comprend les intentions sociales du locuteur. Grâce à l'apprentissage dans un environnement multimodal et aux jeux de rôle, une compréhension sémantique plus avancée est obtenue, jetant les bases des futures applications de robots incarnés.
En fait, lorsque nous détournons notre attention de ces réalisations techniques éblouissantes vers l’environnement opérationnel réel du modèle final, nous devons faire face à une réalité objective. Le déploiement de modèles sur les terminaux est toujours confronté à trois défis majeurs : la mémoire, la consommation électrique et la puissance de calcul.
Apple a souligné dans son article "LLM in a flash" qu'un modèle de langage avec 7 milliards de paramètres de demi-précision nécessite plus de 14 Go d'espace DRAM pour être entièrement chargé dans un terminal ; Meta a souligné dans son article sur le modèle MobileLLM qu'une pleine puissance modèle d'environ 5 000 joules Pour l'iPhone, seul le modèle 7B prend en charge moins de 2 heures de conversation à un taux de génération d'IA de 10 jetons/seconde.
Afin de mettre un éléphant dans le réfrigérateur, les fabricants de puces pour téléphones mobiles ont accéléré la recherche et le développement de puces IA, en se concentrant sur les processus de fabrication avancés, la capacité de mémoire et la bande passante, ainsi que les performances du CPU et du GPU. Les marques de téléphones mobiles seront également équipées de batteries et de composants de refroidissement plus performants pour améliorer les capacités matérielles globales des terminaux et mieux prendre en charge les modèles d'IA.
Toutefois, les améliorations matérielles ne constituent qu’une partie de la solution. Le véritable goulot d’étranglement réside dans la manière de transporter plus d’intelligence avec moins de paramètres. .
Les recherches menées par l'équipe Wallface montrent qu'avec l'avancement collaboratif des données, de la puissance de calcul et des algorithmes, le même niveau d'intelligence peut être atteint avec moins de paramètres. Par exemple, les capacités de GPT-3, qui nécessitaient 175 milliards de paramètres en 2020, seront atteintes avec seulement 2,4 milliards de paramètres d’ici février 2024.
Sur la base de cette découverte, l’équipe Wall-Facing a proposé la loi de densité à grand modèle (Densing Law) dès l’année dernière.
La densité des capacités du modèle augmente de façon exponentielle au fil du temps, et les paramètres du modèle qui atteignent la même capacité diminuent de moitié tous les 3,3 mois (environ 100 jours).
Le modèle est compressé efficacement et finalement adapté au matériel du terminal, et les progrès de l'industrie qui en résulteront viendront naturellement.
L’arrivée du prochain tournant dans l’électronique grand public n’est plus une simple mise à niveau matérielle, mais un changement dans la façon dont les produits sont utilisés et dans l’expérience utilisateur par rapport à la logique sous-jacente, qui apporte également de nouvelles opportunités et points de croissance au marché.
La demande des consommateurs pour les produits d'IA intégrés aux appareils continue d'augmenter, et ils sont prêts à payer des prix plus élevés pour des produits plus intelligents et plus pratiques. Cela incitera les entreprises à accroître leurs investissements dans la recherche et le développement de technologies d'IA intégrées aux appareils, ainsi que dans l'innovation de produits.
Selon les prévisions d'IDC, en 2024, plus de la moitié des appareils du marché chinois des équipements terminaux disposeront d'une base de puissance de calcul pour les tâches informatiques d'IA au niveau matériel. D'ici 2027, cette proportion augmentera encore pour atteindre près de 80 %.
Lors du salon CES 2025, nous avons également constaté que l'intégration de modèles et de matériels côté appareil a donné naissance à une série de produits électroniques, notamment AIPC, AIPhone, lunettes intelligentes IA, jouets compagnons IA, etc.
La trajectoire de développement de l’intelligence face aux murs confirme également cette tendance.
Ce n'est qu'au cours du second semestre de l'année dernière que le modèle d'extrémité intelligent MiniCPM orienté vers le mur a été lancé à un rythme accéléré. Il a successivement établi des relations de coopération avec Huawei Cloud, Accelerated Evolution Robot, Elephant Robot, Wutong Technology, Great Wall Motors, MediaTek, Baidu Smart Cloud et Intel, et son territoire d'activité s'est étendu au cockpit intelligent, aux robots, à la collaboration appareil-cloud et à d'autres domaines.
Li Dahai, PDG de Wall-Facing Intelligence, a déclaré dans une interview avec APPSO que MiniCPM-o 2.6 se concentrera sur les appareils dotés de fortes caractéristiques incorporées. Actuellement, Wall-Facing Intelligence a établi une relation de coopération approfondie avec les fabricants de robots humanoïdes pour accélérer leur évolution.
Selon lui, ce modèle end-side entièrement modal peut améliorer la fonction « cérébrale » du robot et fournir un support technique clé pour le système d'ontologie du robot. Il espère également l'intégrer à davantage de fabricants de robots, d'automobiles, de téléphones mobiles, etc. Coopérer avec les fabricants d'équipements dotés d'attributs spécialisés.
En revenant sur l'historique de développement de MiniCPM, depuis la sortie du modèle phare côté client MiniCPM 1.0 de première génération jusqu'à l'itération vers MiniCPM 3.0, nous avons inauguré le moment ChatGPT côté client. MiniCPM a toujours pratiqué la ligne « petit et large + haute efficacité et faible coût ».
Tout au long de son parcours, Wall-Facing Intelligence a toujours suivi la tendance des modèles open source à grande échelle en Chine.
Depuis sa sortie en février 2024, la série MiniCPM de modèles finaux a été téléchargée plus de 4 millions de fois, ce qui en fait le modèle chinois le plus populaire au monde dans Hugging Face 2024.
Le caractère inclusif de la technologie de l’IA connaît trois étapes d’évolution : premièrement, la rendre abordable pour tous, puis la rendre pratique à utiliser, et enfin la rendre confortable à utiliser.
L’intelligence murale accélère la transformation de ce dernier kilomètre.
# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo