GPT-4V peut fonctionner sur les téléphones mobiles ! Face the wall lance le petit pistolet en acier multimodal 2.6 le plus puissant, la compréhension vidéo en temps réel est lancée pour la première fois

Au cours des six derniers mois, la tendance des grands modèles a légèrement changé. Contrairement à la tendance précédente de recherche continue d'échelle, les modèles bout à côté plus petits et plus solides sont devenus la tendance actuelle.

Il n'y a pas si longtemps, après avoir été plagié par l'équipe d'IA de l'Université de Stanford, le principal fabricant national de modèles, Face Wall Intelligence, a considérablement renforcé sa présence et a également fait prendre conscience aux pays nationaux et étrangers de la force extraordinaire de l'entreprise dans le domaine de l'IA.

Aujourd'hui, Wallface Intelligence a lancé un nouveau modèle MiniCPM-V 2.6 de « petit canon en acier », élevant une fois de plus les capacités multimodales finales à un nouveau niveau.

Bien que le modèle ne comporte que 8B de paramètres, il a obtenu 3 résultats SOTA en compréhension d'image unique, multi-images et vidéo de moins de 20B, élevant les capacités multimodales de l'IA côté extrémité à un niveau au-delà de GPT-4V dans une analyse comparative complète.

Mettez simplement en évidence :

  • Pour la première fois, les capacités de base multimodales telles que la compréhension d'images uniques, multi-images et vidéo du côté de l'appareil ont complètement dépassé GPT-4V, et la compréhension d'images uniques a dépassé Gemini 1.5 Pro et GPT-4o mini.
  • Présentation de la compréhension vidéo en temps réel, de l'union multi-images, de l'apprentissage visuel ICL, de l'OCR, etc., pour permettre l'observation et l'apprentissage du monde réel des modèles finaux.
  • Xiaogangpao 2.6 a atteint deux fois la densité de pixels d'encodage à jeton unique de GPT-4o. Le jeton visuel est 30 % inférieur à la génération précédente et 75 % inférieur aux modèles similaires.
  • La mémoire back-end quantifiée n'occupe que 6 Go ; la vitesse d'inférence côté extrémité atteint 18 jetons/s, soit 33 % plus rapide que le modèle de la génération précédente. Et il prend en charge le raisonnement llama.cpp, ollama, vllm dès sa sortie et prend en charge plusieurs langues ;

La compréhension vidéo en temps réel « Long Eyes » est lancée pour la première fois, permettant aux appareils intelligents de mieux vous comprendre

Voyons d'abord l'effet de démonstration réel du modèle MiniCPM-V 2.6.

La vidéo montre qu'avec la prise en charge des capacités multimodales, MiniCPM-V 2.6 est comme avoir une paire d'« yeux » et peut voir le monde réel en temps réel. Lorsque le mode vol est activé, l'appareil terminal équipé de ce modèle peut identifier avec précision la scène intérieure de l'entreprise intelligente faisant face au mur.

Du logo de l'entreprise intelligente exposée au mur aux plantes, bureaux, distributeurs d'eau et autres objets, les capacités de reconnaissance d'articles de MiniCPM-V 2.6 sont sans stress et peuvent même être considérées comme faciles.

Face au processus de comptabilité ou de remboursement avec de nombreux reçus, il vous suffit de prendre une photo et de la télécharger sur MiniCPM-V 2.6. Celui-ci peut non seulement identifier le montant spécifique de chaque reçu, mais également calculer le total, ce qui simplifie grandement l'ensemble du processus. .

Grâce à sa technologie avancée OCR et CoT (Chain of Thought), MiniCPM-V 2.6 peut non seulement capturer avec précision le montant figurant sur le reçu, mais également présenter le processus de résolution de problèmes de manière claire et concise :

Pour les vidéos « trop longues à regarder », vous pouvez désormais laisser directement le modèle extraire les informations clés pour vous.

Par exemple, face à une vidéo de prévisions météorologiques d'environ 1 minute, MiniCPM-V 2.6 peut utiliser « l'œil nu » pour identifier et décrire les conditions météorologiques spécifiques dans différentes villes dans des conditions silencieuses.

Les capacités de raisonnement complexe multimodal final du MiniCPM-V 2.6 se sont également « améliorées ».

En prenant comme exemple la démonstration officielle classique du GPT-4V – le réglage du siège de vélo, MiniCPM-V 2.6 peut clairement guider l'utilisateur pour abaisser le siège de vélo via un dialogue à plusieurs roues et recommander des outils appropriés en fonction des instructions et de la boîte à outils.

Ou encore, si vous disposez d’une connexion Internet 2G et que vous ne comprenez pas les mèmes largement diffusés par les jeunes, autant les laisser vous expliquer patiemment les défauts qui se cachent derrière ces mèmes.

Il peut même être plus humoristique que les humains et capturer le sous-texte des mèmes. En tant que programmeur, vous pouvez regarder cette image, rire et pleurer.

Petit gagne gros, MiniCPM-V 2.6 est connu comme la multimodalité finale la plus puissante en trois-en-un

La principale compétitivité du modèle côté appareil est de faire une grande différence avec de petites choses.

Selon l'introduction officielle de Wallface Intelligence, en termes de taux de compression des connaissances de MiniCPM-V 2.6, MiniCPM-V 2.6 a atteint la densité de pixels grand modèle multimodale la plus élevée (Token Density) deux fois supérieure à celle de GPT-4o.

Densité du jeton = nombre de pixels d'encodage/nombre de jetons visuels, fait référence à la densité de pixels portée par un seul jeton, c'est-à-dire la densité des informations d'image, qui détermine directement l'efficacité opérationnelle réelle du modèle multimodal. valeur, plus l’efficacité opérationnelle du modèle est élevée.

La densité de jetons du modèle source fermé est estimée par la méthode de facturation API. Les résultats montrent que MiniCPM-V 2.6 possède la densité de jetons la plus élevée parmi tous les modèles multimodaux, conservant ainsi ses caractéristiques constantes d'efficacité extrême.

À en juger par les résultats des tests de référence partagés, MiniCPM-V 2.6 surpasse Gemini 1.5 Pro et GPT-4o mini en termes de capacités de compréhension d'image unique sur la plate-forme d'évaluation complète faisant autorité, OpenCompass.

Sur la liste de la plateforme d'évaluation multi-graphiques Mantis-Eval, la capacité de compréhension conjointe multi-graphiques de MiniCPM-V 2.6 réalise le modèle open source SOTA et surpasse GPT-4V. Sur la liste Video-MME de la plate-forme d'évaluation vidéo, la capacité de compréhension vidéo de MiniCPM-V 2.6 atteint le SOTA final, dépassant GPT-4V.

▲OpenCompass | Résultats de la liste Mantis-Eval |

De plus, les performances OCR de MiniCPM-V 2.6 implémentent le modèle SOTA open source + source fermée sur OCRBench.

Sur la liste d'évaluation des hallucinations Object HalBench, le niveau d'hallucinations du MiniCPM-V 2.6 (plus le taux d'hallucinations est bas, mieux c'est) est également meilleur que celui de nombreux modèles commerciaux tels que GPT-4o, GPT-4V, Claude 3.5 Sonnet et ainsi de suite.

▲Obiect HalBench | Résultats de la liste OCRBench

La raison derrière les excellentes performances de la nouvelle génération de petit canon en acier MiniCPM-V 2.6 est principalement due à l'adoption d'une architecture visuelle haute définition unifiée.

Les responsables ont déclaré que le cadre visuel unifié haute définition hérite non seulement des avantages multimodaux des images uniques traditionnelles, mais permet également une communication à guichet unique.

Par exemple, la fonctionnalité OCR SOTA migre les capacités et le partage des connaissances de « 1,8 million d'analyses d'images haute définition » de MiniCPM-V de scènes à image unique, l'étend de manière transparente aux scènes multi-images et aux scènes vidéo, et unifie ces trois compréhension visuelle. scénarios en graphiques. Il résout le problème de la modélisation sémantique des textes alternés, partage le mécanisme de représentation visuelle sous-jacent et permet une économie de plus de 75 % du nombre de jetons visuels par rapport à des modèles similaires.

Sur la base de l'extraction d'informations OCR, MiniCPM-V 2.6 peut en outre effectuer un raisonnement complexe similaire au CoT (Chain of Thought) sur les informations des tableaux.

En prenant comme exemple les Jeux olympiques de 2008, le modèle a pu calculer le nombre total de médailles d'or remportées par les trois pays ayant remporté le plus de médailles d'or.

[image]

Ce processus comprend :

  1. Utilisez les capacités OCR pour identifier et extraire les trois premiers pays avec le plus de médailles d'or dans le tableau des médailles ;
  2. Additionnez le nombre total de médailles d'or de ces trois pays.

En termes de crédibilité de l'IA, MiniCPM-V 2.6 poursuit les avantages traditionnels de la série Xiaogangpao avec un taux d'illusion de 8,2 %. De plus, la technologie d'alignement RLAIF-V face au mur et l'application de la technologie d'alignement de la série Ultra sont également des technologies noires cachées derrière MiniCPM-V 2.6.

Les données officielles montrent que le nombre de téléchargements de la série Xiaogangpao a dépassé le million. Depuis le lancement du déploiement final, la première capacité multimodale, jusqu'au modèle multimodal final le plus puissant, en passant par la nouvelle ère d'analyse comparative complète du GPT-4V côté terminal, l'intelligence murale n'a pris que six mois. .

"Intelligent, fluide et si rapide qu'il ne ressemble pas à un modèle de bout en bout !" Cette phrase est la description la plus appropriée de la série des petits pistolets en acier.

Donnez plus de temps à Wall-Facing Intelligence, ainsi qu'aux grands fabricants de modèles nationaux et étrangers. Nous sommes fermement convaincus que Wall-Facing Intelligence continuera à lancer davantage de modèles d'IA de haute qualité et à travailler avec les pays nationaux. et de grands fabricants de modèles étrangers pour promouvoir le développement de l'IA finale.

Dans ce processus, les développeurs indépendants et les utilisateurs ordinaires deviendront les plus grands bénéficiaires.

Enfin, l'adresse open source MiniCPM-V 2.6 est jointe :

GitHub  https://github.com/OpenBMB/MiniCPM-V
Visage câlin :  https://huggingface.co/openbmb/MiniCPM-V-2_6

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo