En construisant Labubu de 0 à 1, MiniMax Agent m’a donné un aperçu de ce à quoi ressemblera l’avenir des agents intelligents

Au cours du premier semestre de cette année, la chose la plus attendue et la plus excitante est celle des outils Agent, qui ont de grandes promesses : ces tâches répétitives, chronophages et qui brûlent le cerveau dans la vie quotidienne peuvent désormais être effectuées en déplaçant simplement vos doigts et en tapant quelques invites.
La tarte est vraiment tentante, mais réfléchissez-y bien : si vous voulez être vraiment utile, vous avez besoin d'une sorte de réflexion et de planification similaire à vous et à moi, et même de la capacité de rivaliser avec vous-même et de réfléchir sur vous-même.
Dans cet esprit, nous avons testé le dernier MiniMax Agent pour une série de tests approfondis – ne nous contentant plus d'évaluations de niveau d'entrée, mais l'avons jeté dans des scénarios de travail intéressants et stimulants mais réalistes pour voir à quel point il peut être intelligent.
Il n'y a qu'une seule chose que je peux dire à propos de MiniMax Agent : vous pouvez faire le travail tout en jouant.
Contenu créatif : récit visuel au-delà de l'imagination
MiniMax possède elle-même une expérience approfondie dans les modèles multimodaux, et cet avantage facilite la tâche à ceux qui souhaitent produire des œuvres créatives.
Labubu a connu un succès phénoménal ces derniers temps, et il s'est avéré que nous devions élaborer un plan de promotion. Cela paraît compliqué, mais cet agent n'a pas paniqué. Il a d'abord élaboré un plan de promotion complet, défini la liste des livrables, généré des affiches de manière ordonnée, puis préparé les affiches promotionnelles étape par étape.

Tout au long du processus, MiniMax Agent utilise son cerveau pour réfléchir tout en faisant appel aux outils appropriés, rendant tout fluide et ordonné.
Quant aux résultats, ils ont été une véritable surprise : non seulement l'esthétique visuelle était au rendez-vous en ligne, mais le texte d'introduction était clair et les galeries d'affiches thématiques se succédaient. Il s'avère que MiniMax Agent est non seulement compétent, mais qu'il a aussi du « goût ».
De même, vous pouvez continuer à utiliser Labubu comme protagoniste et laisser MiniMax Agent écrire un livre d’images de 20 pages.

En un peu plus de dix minutes, MiniMax Agent a réalisé le dessin + l'écriture de l'histoire + la mise en page de la page Web en trois étapes.

L'effet est étonnamment remarquable, les images des personnages sont relativement cohérentes, le texte et les images de chaque page sont clairs et agréables à lire. Le site est également compatible avec le déploiement web, la mise en page est raisonnable et les détails sont soignés.
Bien sûr, je préfère que Labubu soit surnommé « Petit Ours au Chapeau de Lapin ». C'est mignon et agréable à regarder. Avec ses images et son texte, il convient aussi bien aux enfants qu'aux adultes.
Production PPT : non seulement belle, mais aussi « sculptée »
L’un des points forts de cette mise à jour est la possibilité de créer de magnifiques PPT, ce qui est une nécessité pour les personnes qui travaillent sur leur lieu de travail.
Pour MiniMax Agent, le PPT est également un outil multimodal. Il se présente comme un simple ensemble d'images et de textes, mais qu'il s'agisse de composition, de planification et d'organisation du contenu, il doit avoir un thème, des idées, une logique et être capable de compléter le contenu de manière autonome.
Par exemple, concevez un PPT explicatif sur la physique pour les élèves du premier cycle du secondaire :

Ou un rapport d’activité pour les investisseurs :

En termes simples, créer un bon PPT ne se résume pas à une simple recherche d’informations, mais également à un test de capacité à filtrer, à débruiter et à corréler les informations entre domaines.
Les produits finis sont tous superbes, ce qui nous amène à nous demander : qu'a fait MiniMax Agent pendant le processus de production ?
Nous avons réalisé un test avec des présentations PowerPoint d'études de marché, généralement riches en données et en informations. Ce fut une excellente occasion de vérifier la qualité de la compréhension des données, la sélection des graphiques appropriés et la présentation des résultats.
Tout d'abord, il peut diviser avec précision les tâches et organiser le contenu selon la structure à trois couches de « mise en page + type de graphique + style de données », et la planification des pages est très bonne.

La visualisation affiche non seulement l'intégralité des données clés, mais utilise également des méthodes de visualisation adaptées aux caractéristiques des différentes données. La transition d'animation du PPT est également très fluide, ce qui met naturellement en évidence les points clés et évite d'avoir à peaufiner l'animation.

Dans la livraison finale, en plus des documents PPT requis, des fichiers Web et PDF supplémentaires, ainsi que des fichiers Markdown ont également été fournis.
Dans l'ensemble, l'agent Minimax possède de très bonnes capacités dans la chaîne complète de « compréhension-intégration-raisonnement-génération-expression », notamment dans le domaine du non-code, de la rédaction et de l'analyse commerciale, et peut être entièrement décrit comme « professionnel ».
Audio vers site Web : un flux de travail de contenu intelligent unique
Si les images et les textes ne sont pas suffisamment élaborés, une scène mettant encore plus à l'épreuve les compétences de l'agent apparaît : cette tâche nécessite de convertir le format du fichier audio téléchargé, puis de le convertir en transcription horodatée. Enfin, une carte mentale doit être générée à partir du contenu.
Prises séparément, ces tâches ne sont pas difficiles, mais c’est dans leur exécution conjointe que réside la difficulté.

Auparavant, nous devions soit maîtriser les outils de conversion, soit passer du temps à chercher et à tester différents outils de conversion en ligne. MiniMax Agent peut le faire directement en interne, ce qui nous évite considérablement la recherche, l'installation et l'utilisation d'outils externes.
MiniMax Agent est extrêmement efficace et pratique tout au long du processus. La conversion de format fluide est particulièrement intuitive. La fenêtre de traitement vous permet de constater la rapidité et la précision de MiniMax Agent dans la génération de transcriptions.

En plus de pouvoir convertir le contenu audio en texte, vous pouvez également avoir une compréhension approfondie du contenu audio, qui se reflète dans la carte mentale fournie.

Les cartes mentales peuvent non seulement trier clairement les idées principales et le contexte logique de l'audio, mais également capturer avec précision la hiérarchie et les points d'information clés du contenu.
Cela va bien au-delà de la simple extraction de mots-clés et démontre la puissante capacité de MiniMax Agent à structurer et à visualiser des informations dispersées.
Bien que j'aie défini les prérequis, je n'avais aucune idée de comment les mettre en œuvre. Au lieu de cela, il a pris l'initiative d'organiser le travail lui-même : de l'installation des paquets de dépendances au démarrage du serveur, il a tout réalisé seul, sans aucun souci.
Conception d'interface utilisateur : apprendre en faisant, produire efficacement
Lorsque nous retournons réellement à notre travail quotidien, les étapes suivantes doivent être suivies : recherche et compréhension – apprentissage et compréhension – pratique. C’est le processus de travail le plus fondamental pour l’être humain. Après tout, sans recherche, pas d’idées.
Donc, si vous voulez être un bon agent, ce processus est également essentiel – il est compliqué, mais nécessaire.
L'étude de cas suivante examine la mise en œuvre de l'ensemble du processus : étudier le style de conception du verre liquide d'Apple iOS 26 et créer une interface utilisateur similaire.

De toute évidence, l'agent MiniMax savait également qu'il s'agissait d'une tâche plutôt compliquée et a élaboré tout un plan de travail pour lui-même.

L'étape suivante consiste à concevoir, déployer et écrire le code étape par étape. Les étapes sont nombreuses, mais elles sont exécutées de manière ordonnée, sans aucune intervention humaine, même pour trouver des supports visuellement percutants.

La livraison finale n’est pas seulement un package de code, mais également un site Web pour présenter les résultats de l’ensemble du processus de recherche et afficher visuellement les résultats dans différentes dimensions.
Il existe même un espace dédié à l'expérience interactive, où vous pouvez simplement essayer l'effet : il dépasse complètement les paramètres de l'invite d'origine et remplit largement la tâche.
L'invite d'origine est en réalité très simple. En la comparant aux résultats finaux, nous constatons que MiniMax Agent est non seulement capable de mener des recherches approfondies, d'exécuter des tâches avec du code, mais qu'il possède également sa propre compréhension des tâches .
Recherche approfondie : plus qu'une simple recherche, plus de raisonnement
La recherche de données est une compétence fondamentale. Elle n'est pas difficile, mais demande un travail minutieux. En particulier lorsqu'il s'agit de recherches basées sur l'actualité, l'acquisition d'informations doit être approfondie autant que possible.

À en juger par le processus de la chaîne de réflexion et les résultats de la livraison, la performance de l'agent dans la réalisation de ce rapport de recherche a largement dépassé les attentes : il a non seulement réalisé l'intégration d'informations structurées, mais a également démontré sa capacité de raisonnement.
Dans le rapport, MiniMax Agent ne se contente pas d'énumérer les données, mais identifie l'énorme différence entre la taille du marché « top-down » et « bottom-down », et la présente comme une « information importante sur le marché ».

Évidemment, la simple énumération d'informations ne peut pas être qualifiée de véritable « recherche approfondie ». Les agents doivent identifier les schémas, les tendances et les relations causales sous-jacentes aux données, et en tirer des « idées » et des « opinions fondamentales » précieuses ; cela requiert des capacités de raisonnement qui vont au-delà de la simple correspondance textuelle .
Résumé : Modèle dans la main gauche, Agent dans la main droite, MiniMax me permet de voir à quoi ressemblera le futur des agents intelligents
Agent est l'un des sujets les plus en vogue de l'année en matière d'IA. L'avenir d'Agent est au cœur des discussions, mais rares sont les outils capables de transformer Agent, simple démonstration et jouet de cinq minutes, en un outil capable de transformer la productivité.
MiniMax, qui possède son propre modèle développé en interne, a lancé son propre produit Agent, nous offrant une nouvelle façon de jouer. Après les tests, nous avons également acquis une nouvelle compréhension d'Agent : ce qui détermine l'expérience Agent n'est pas seulement le modèle lui-même, mais aussi l'infrastructure invisible.
Il y a un détail qui mérite particulièrement d'être mentionné ici : en tant qu'entreprise indépendante, MiniMax est presque le seul fabricant capable de fournir des capacités entièrement modales.

▲ Le modèle vocal MiniMax Speech-02-HD classé premier dans la liste Artificial Analysis Speech Arena

▲ Le modèle vidéo MiniMax Hailuo 02 est classé deuxième sur la liste Artificial Analysis Video Arena
La plupart des capacités de l’agent reposent sur le moteur de modèle, et la tendance du « modèle en tant qu’agent » devient de plus en plus évidente.
À ce stade, les avantages des entreprises modèles dans les applications d'IA sont pleinement démontrés. Puisqu'elles contrôlent directement le modèle sous-jacent, elles peuvent optimiser plus efficacement la logique de planification, réduire les coûts d'exploitation et créer un volant d'inertie de données pour une itération autonome .
MiniMax en est un exemple typique. À mesure que les capacités de son propre modèle s'améliorent, les coûts d'exploitation de l'agent sont continuellement optimisés et ses performances considérablement améliorées.

Aujourd'hui, MiniMax a rendu open source le premier modèle d'inférence d'architecture hybride à grande échelle au monde, MiniMax-M1, qui prend en charge nativement une longueur d'entrée de 1 million de jetons et la plus longue sortie du secteur, soit 80 000 jetons. La puissance de calcul d'inférence requise pour générer 100 000 jetons ne nécessite que 25 % de DeepSeek R1, ce qui a encore réduit le prix des modèles d'inférence.
Alors que d'autres startups s'inquiètent toujours des coûts élevés des jetons, MiniMax a pu réduire systématiquement les coûts d'exploitation des agents en augmentant la proportion de ses propres modèles, ce qui est très important pour que les utilisateurs aient une expérience continue et stable.
C'est l'interprétation ultime de « Minimiser les efforts, maximiser l'intelligence ». En termes simples, cela signifie déployer un minimum d'efforts pour obtenir un maximum d'intelligence.
La configuration « modèle dans la main gauche, agent dans la main droite » de MiniMax leur permet de trouver le meilleur équilibre entre capacités techniques et valeur pour l'utilisateur, et a en effet les conditions pour se démarquer dans cette compétition d'agents intelligents.
Nous sommes à un tournant sans précédent : l’IA évolue d’un outil vers une entité intelligente composite avec « cerveau, sens, mains et pieds », ouvrant un espace d’imagination plus nouveau et plus cool pour le travail et la vie futurs.
#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.
