Les grands modèles « réduits » en téléphones mobiles, les smart murales lancent MiniCPM, un petit canon en acier haute performance

1 février 2024 Hibou Gourou

Les grands modèles ouvrent une nouvelle ère et ils doivent être natifs de l’IA.

Li Dahai, co-fondateur et PDG de Face Wall Intelligence, a dit un jour ce qui précède. Selon lui, l'ère des grands modèles nécessite une IA native, et le matériel des grands modèles exécuté du côté de l'appareil est du matériel natif.

Cet après-midi, Wall-facing Intelligence a officiellement publié le MiniCPM, grand modèle phare d'extrémité 2B, face au mur, et le champ de bataille grand modèle d'extrémité accueillera un nouveau joueur.

Avec une petite et une grande puissance, le petit canon en acier performant 2B est "sur la machine"

Nous avons déjà signalé que Mistral AI, la « version européenne d'OpenAI », avait sorti un petit modèle Mistral-7B court et compact. Bien qu'il ne mesure que 7B, ses performances et sa consommation d'énergie ont été très appréciées.

Le MiniCPM, qui ne mesure que 2 milliards de dollars, a dépassé le Mistral-7B en termes de scores moyens en chinois et en anglais dans de nombreuses listes d'évaluation traditionnelles. MiniCPM a des capacités plus complètes et ses scores ont dépassé le modèle phare de Microsoft, le Phi-2, dans des tests de référence tels que CEval, CMMLU et MMLU.

En termes de score moyen sur la liste anglaise, le MiniCPM a largement dépassé les modèles d'échelle identique ou même plus grande, et est même comparable aux modèles d'échelle 13B, 30B et 40B. Dans l'ensemble d'évaluation MT-Bench le plus proche de l'évaluation humaine, MiniCPM peut même rivaliser avec Claude 2, ce qui en fait un canon de performance 2B.

Alors, comment l’intelligence murale parvient-elle à utiliser de petites choses pour réaliser de grandes choses ?

Puissance de calcul : infrastructure efficace tout au long du processus, accélération d'inférence 10x, réduction des coûts de 90 % ;
Algorithme : la soufflerie modèle face au mur est petite et grande, et des configurations de formation de modèle efficaces permettent d'obtenir une formation rapide des capacités du modèle ;
Données : en termes d'usine de données moderne, elles constituent une version de modèle de traction en boucle fermée pour une itération rapide de la gouvernance des données à l'évaluation multidimensionnelle ;

MiniCPM est également un bon acteur dans les capacités de base telles que la génération de grands modèles. Li Dahai, co-fondateur et PDG de Face Wall Intelligence, a présenté lors du lancement que MiniCPM connaît non seulement avec précision l'altitude du mont Huangshan et du mont Tai, calcule la différence, mais peut même écrire du code pour l'auto-développement et l'optimisation.

Alors que la concurrence pour les grands modèles devient de plus en plus féroce en 2024, l'ajout de capacités multimodales pousse l'intelligence artificielle dans l'ère de la « synesthésie ».MiniCPM, connu comme la capacité multimodale la plus puissante de sa catégorie, a également réalisé des -modalité sur les téléphones mobiles. Il peut identifier avec précision les créatures dangereuses telles que les champignons venimeux et les serpents venimeux dans la nature.

Li Dahai a démontré l'effet du MiniCPM dans des applications pratiques sur site. Lorsque le mode avion est activé et que des questions sont posées sur les mesures d'auto-sauvetage en cas de consommation accidentelle de champignons vénéneux ou de perte dans la nature, les réponses de MiniCPM semblent être plus pratiques que de vides « clichés ». Si vous rencontrez de mauvaises conditions de signal dans la nature, ces suggestions données par MiniCPM hors ligne peuvent vous être d'une grande aide.

Dans une compétition technologique à grande échelle, le coût est la compétitivité invisible des grands modèles.En plus de ses performances puissantes, le coût d'inférence de MiniCPM n'est que de 1% de celui de Mistral-Medium.

En tant que modèle côté terminal à grande échelle, MiniCPM a fonctionné avec succès sur les principales marques internationales de téléphones mobiles et sur les puces CPU des terminaux. Même les anciens téléphones mobiles peuvent fonctionner normalement. Cependant, du point de vue du débit, l'opération est toujours en cours et le réel les performances devront peut-être être améliorées.

Sur la base de l'accumulation d'intelligence murale dans le domaine des grands modèles, Li Dahai a également annoncé officiellement lors de la conférence de presse qu'il allait davantage ouvrir les sources, "permettant aux grands modèles de voler dans des milliers de foyers". L'adresse open source (y compris le rapport technique) est la suivante :
MiniCPM GitHub : https://github.com/OpenBMB/MiniCPM
OmniLMM GitHub : https://github.com/OpenBMB/OmniLMM

À la fin de la conférence de presse, Li Dahai a également démontré les capacités d'interaction multimodale en temps réel du modèle mniLMM-12B. Semblable à l'idée précédente du grand modèle Google Gemini démontrant les capacités multimodales, ils ont également demandé à MiniCPM de jouer à un "jeu de devinettes" composé de pierre, papier, ciseaux. Les résultats ont montré que la fluidité, la précision et le retard de ses réponses se situaient toutes dans des niveaux acceptables.

La capacité de raisonnement logique est également un point fort important. Après avoir téléchargé une image sans description textuelle, il peut déduire avec précision la signification de l'image en se basant sur de petits détails tels que des vêtements, des lunettes de soleil et des cannes de guidage, démontrant pleinement sa capacité globale à « voir et penser ».

Internet des agents

"Si les capacités des agents sont utilisées dans des modèles finaux, elles peuvent mieux servir des scénarios spécifiques et créer plus de valeur. Je pense que ces deux directions peuvent se soutenir mutuellement et produire de merveilleuses réactions chimiques."

Zeng Guoyang, CTO de Wall-Facing Intelligence, a parlé de la relation entre le grand modèle côté terminal et l'Agent. Lors de cette conférence de presse, Li Dahai a également réitéré la stratégie bimoteur grand modèle + agent. Selon lui, la sortie de MiniCPM sert toujours la stratégie bimoteur.

En fait, lorsque de grands modèles cherchent à être intégrés dans des scénarios d’atterrissage, l’IA Agent devient une approche clé. Wall-Facing Intelligence est l'une des premières sociétés à proposer le concept d'Agent. Les responsables du renseignement mural ont même affirmé que le monde futur sera un monde d’agents et que tout sera un agent.

Imaginez que lorsque vous êtes prêt à préparer du porridge, il vous suffit de mettre les ingrédients dans le cuiseur à riz, d'attendre un moment et un pot de porridge fumant en sortira. Au cours de ce processus, le cuiseur à riz utilise la technologie Agent intégrée. pour ajuster automatiquement la température et la chaleur. , la cuisson peut être terminée sans intervention manuelle.

Lors de la conférence Yunqi de l'année dernière, Li Dahai a déclaré : « Le grand modèle + agent apportera une nouvelle série de grands changements technologiques. »

À cette époque, il comparait les grands modèles au moteur d’une voiture, qui fournit de la puissance à la voiture. Cependant, pour construire une voiture complète, vous avez également besoin d’une direction, d’un châssis et de tout le reste.

De même, il estime que sur la base du moteur de grands modèles, une série de technologies de niveau supérieur, telles que les capacités de mémoire et la capacité d'utiliser des outils, doivent être superposées pour élargir les perspectives d'application et l'imagination. AI Agent est l'entité qui porte ces capacités techniques.

Depuis sa création, Wallface Intelligence a commencé à planifier l'itinéraire technique et l'orientation de la mise en œuvre du « grand modèle + agent », et a successivement lancé la « troïka » d'agents IA : XAgent, AgentVerse et ChatDev.

Ces trois produits sont tous pilotés par de grands modèles et représentent l'innovation de pointe et les résultats d'application d'AI Agent. Ils visent à combiner de grands modèles avec l'environnement réel. Parmi eux, XAgent est un grand cadre d'application d'agent IA basé sur des modèles, et AgentVerse est une plateforme universelle pour les agents, tandis que ChatDev est un cadre de développement collaboratif multi-agents.

Spécifique à l'orientation de la mise en œuvre de ToB, AI Agent devrait jouer plusieurs rôles au sein de l'entreprise et remodeler les processus opérationnels et la structure organisationnelle de l'entreprise. Ces agents IA peuvent effectuer diverses tâches, similaires aux employés d'entreprise traditionnels, réduisant ainsi les coûts et augmentant l'efficacité.

Pour les applications grand public (ToC), AI Agent peut apparaître sous la forme d'un assistant intelligent pour fournir aux utilisateurs des services personnalisés et pratiques. Ces assistants intelligents peuvent comprendre et prédire les besoins des utilisateurs et fournir de l'aide et des suggestions en temps réel, améliorant ainsi l'expérience et la qualité de vie des utilisateurs.

Alors, à quoi devrait ressembler l’avenir d’AI Agent ?

La vision et le concept de Wall-Facing Intelligence sont « l'Internet des agents », qui doit permettre aux agents IA de tout connecter dans le monde et de réaliser la transformation de « l'Internet de tout » à « l'intelligence de tout ».

Ce concept a été proposé par Liu Zhiyuan, professeur agrégé permanent au Département d'informatique de l'Université Tsinghua et fondateur de Wall-Facing Intelligence, qui a également déclaré avec assurance dans un discours public :

Face à l'avenir, davantage de personnes, d'appareils et d'objets pourront être connectés via de grandes plates-formes intelligentes basées sur des modèles, promouvant l'Internet de tout à l'Internet intelligent de tout et entrant dans une nouvelle ère d'Internet des objets intelligent (loA) entre homme et machine. Nous allons inaugurer la deuxième émergence de l’intelligence artificielle.

Dans l'imaginaire de cet expert de haut niveau qui travaille dans le domaine informatique depuis des décennies, la deuxième émergence de l'intelligence artificielle consiste à associer des agents individuels à leurs propres forces pour former une intelligence de groupe complexe, montrant ainsi des comportements émergents plus puissants.

Dans une récente interview en ligne entre Li Dahai et Kevin Kelly, l'auteur de « Out of Control », Kevin Kelly a également exprimé des points de vue similaires. Il pense que la collaboration entre les IA a un énorme potentiel et qu'à l'avenir, un écosystème composé de centaines, voire de milliers d'IA différentes, sera formé, libérant une puissance incroyable.

En fait, l’intelligence en essaim, en tant que phénomène courant dans la nature et dans la société, fait référence à la capacité d’un groupe composé de nombreux individus simples à présenter un haut niveau de comportement intelligent. Dans la nature, ce comportement intelligent se manifeste sous diverses formes, telles que les actions collectives des colonies de fourmis, des essaims d’abeilles et des bancs de poissons.

Lorsque les fourmis recherchent des sources de nourriture ou retournent à leurs nids, elles libèrent des phéromones pour guider leurs congénères vers le chemin le plus court. Lors de la migration, les bancs de poissons forment un schéma de nage protecteur en coordonnant étroitement leurs positions et leurs actions, permettant à l'ensemble du groupe d'éviter efficacement les prédateurs et d'économiser de l'énergie.

Li Dahai a également emprunté les célèbres paroles du « Problème à trois corps » pour établir un drapeau du Nouvel An – pour que l'AGI vienne « plus vite », faisant écho à la vision de la Société de renseignement face au mur de « tout comprendre ».

La beauté de la vie, c'est d'être obsédé par quelque chose. La vie est trop courte, ne faites pas de choses frivoles.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo