Le modèle Doubao Deep Thinking est officiellement publié ! Comme o3, il peut « penser en regardant des images », et il possède également un coup ultime d’agent.

17 avril 2025 Hibou Gourou

Au cours des deux derniers mois, le rythme de sortie des modèles et produits d’IA ne peut pas être décrit comme « changeant chaque jour qui passe ».

La popularité de la génération de graphiques GPT-4o ne semble dater que d’hier. OpenAI a publié ses modèles d'inférence les plus puissants, o3 et o4 mini, mais ce n'est peut-être pas la version d'IA la plus importante de ce mois-ci. DeepSeek R2, Claude 4 d'Anthropic et "Grok-3.5" de Musk devraient très probablement sortir l'un après l'autre ce mois-ci.

Et aujourd'hui encore, Byte a également publié un ensemble complet de catégories d'IA, comprenant des modèles de réflexion profonde, un raisonnement visuel, des diagrammes vincentiens, un agent AI… couvrant presque les produits qui ont récemment attiré le plus d'attention dans le cercle de l'IA.

Jetons d'abord un coup d'œil aux produits et aux points forts publiés par Byte cette fois-ci :

1. Doubao 1.5 · Modèle de réflexion profonde

La capacité de raisonnement figure parmi les meilleures au monde
Une latence plus faible prend en charge les applications exigeantes
Compréhension multimodale et scénarios d'application : prend en charge la « recherche en réfléchissant » et le « raisonnement visuel »

2. Diagramme Vincentien 3.0

Photo en 3 secondes
2K HD natif
Mise en page du texte et optimisation de la génération de petites polices
Effets esthétiques et structure de l'image améliorés

3. Doubao 1.5 nouvelle version du modèle de compréhension visuelle

Positionnement visuel plus précis
Comprendre la vidéo plus intelligemment

4.Agent IA

Agent d'application vertical : Doubao lance le premier IDE IA de Chine – Trae
Agent du système d'exploitation : capable d'utiliser des navigateurs, des ordinateurs, des téléphones mobiles ou d'autres agents pour effectuer des tâches complexes.

La série de mises à niveau de produits de Byte réalise non seulement des percées en matière de capacités de raisonnement et de compréhension multimodale, mais accélère également l'application de l'IA dans davantage de scénarios via Agent.

Comme l'a déclaré Tan Dai, président de Volcano Engine : « Si 2024 est la première année d'applications d'IA en Chine, alors 2025 est très probablement la première année d'applications d'agents d'IA. »

Doubao 1.5·Modèle de réflexion profonde : "Rechercher en pensant" + "Raisonnement visuel", penser et observer comme un humain

Au cœur de cette mise à niveau, Doubao 1.5·Deep Thinking Model comporte trois mises à niveau clés : un effet de raisonnement plus fort, un délai de réponse extrêmement faible et des capacités multimodales complètes.

Dans le test de capacité de raisonnement dans les domaines professionnels, le modèle de réflexion profonde Doubao a atteint ou est proche du premier niveau mondial.

En termes de raisonnement mathématique, le score au test AIME 2024 est à égalité avec OpenAI o3-mini-high.
En termes de compétition de programmation, il est proche d'OpenAI o1 dans le test Codeforces pass@8.
La capacité de raisonnement scientifique est également proche de o3-mini dans le test GPQA.

Le modèle de réflexion profonde Doubao 1.5 utilise une architecture MoE avec un paramètre total de 200B, mais les paramètres d'activation ne sont que de 20B.

Cette conception peut réduire considérablement les coûts de formation et d'inférence tout en garantissant de solides performances et en atteignant une latence extrêmement faible de 20 millisecondes, ce qui signifie qu'elle peut être mieux appliquée dans des scénarios d'interaction en temps réel sensibles aux délais.

Rapport technique sur le modèle de réflexion approfondie de Beanbao
https://github.com/ByteDance-Seed/Seed-Thinking-v1.5

Dans l'expérience réelle, les deux fonctions « recherche en réfléchissant » et « raisonnement visuel » du modèle de réflexion profonde Doubao ont apporté quelques surprises, qui sont actuellement plus distinctives par rapport aux produits similaires.

La fonction « Rechercher en réfléchissant » simule le processus de réflexion et de consultation d'informations par les humains tout en résolvant des problèmes. Il regroupe la recherche et le raisonnement et effectue plusieurs recherches basées sur les résultats de la réflexion de chaque étape, rendant la réponse plus logique et plus proche des besoins.

APPSO a également eu une expérience détaillée de la réflexion approfondie de Doubao « chercher en réfléchissant » il n’y a pas si longtemps.

En prenant comme exemple le scénario de recommandation d'achat, l'utilisateur doit choisir un équipement de camping pour une famille de trois personnes, impliquant des facteurs multidimensionnels tels que le budget, la sécurité, la portabilité et l'adaptabilité aux conditions météorologiques.

Le modèle de réflexion profonde Doubao ne se contente pas de donner des réponses, mais effectue plusieurs cycles de recherche et de réflexion comme un consultant :

1. La première série de recherches de données sur les prix et les performances pour déterminer la gamme de sélection de base
2. Le deuxième cycle de recherche est basé sur les besoins des enfants et sélectionne des équipements sûrs et adaptés.
3. Au troisième tour, les facteurs météorologiques sont pris en compte et veuillez vérifier pour une évaluation détaillée.

L'ensemble du processus est transparent et les utilisateurs peuvent voir comment le modèle construit la solution étape par étape. Cette capacité de « réflexion et de recherche » s'applique non seulement aux décisions d'achat, mais peut également être appliquée à des scénarios décisionnels complexes tels que l'analyse financière et la planification de voyages.

Quant à la capacité de raisonnement visuel du modèle de pensée profonde Doubao 1.5, elle coïncide avec OpenAI o3, permettant à l'IA de réfléchir profondément sur la base d'images comme les humains.

Par exemple, dans la tâche d'estimation de l'emplacement géographique, le modèle a non seulement identifié le lac sur l'image, mais a également remarqué de petits détails tels que des cristaux de sel au bord du lac et les installations touristiques environnantes, et a localisé avec précision l'emplacement du site pittoresque grâce à un raisonnement logique.

La scène des commandes dans les pays étrangers est plus représentative et le modèle doit gérer plusieurs facteurs complexes en même temps : calculer les conversions de prix dans différentes devises, prendre en compte les préférences alimentaires des personnes âgées et des enfants, éviter les ingrédients susceptibles de provoquer des allergies, etc. Cette capacité va bien au-delà des outils traditionnels à fonction unique.

La capacité de raisonnement visuel peut en fait jouer un rôle important dans les scènes de bureau d’entreprise. Doubao peut interpréter des organigrammes de processus de gestion de projet complexes, localiser rapidement les informations clés et répondre aux questions strictement selon la logique de l'organigramme.

On peut voir qu'il peut démontrer une compréhension de niveau professionnel, qu'il s'agisse d'analyser des graphiques de rapports financiers ou des graphiques de description de produits.

Doubao Wensheng Figure 3.0 : Passer de la génération à la création

Gemini 2.0 et « One Sentence to Generate Pictures » de GPT-4o ont déclenché une nouvelle vague de génération d'images. Cette fois, Seedream 3.0, un modèle de génération d'images beanbao, a réalisé des percées dans trois aspects principaux : la composition du texte, le réalisme de l'image et les capacités de sortie haute définition.

Dans l'arène d'analyse artificielle, l'évaluation faisant autorité dans le domaine du graphisme vincentien, Doubao Vincentia 3.0 n'a pas perdu face aux meilleurs modèles tels que GPT-4o, Imagen 3, Midjourney v6.1 et FLUX 1.1 Pro, se classant parmi les premiers échelons au monde.

La mise à niveau la plus importante de Seedream3.0 est la génération directe d'images en résolution 2K. L'équipe technologique Byte utilise une stratégie de formation mixte multi-résolution pour permettre au modèle de s'adapter à diverses exigences de ratio, des écrans de téléphones portables aux affiches géantes, et peut produire des images claires et de haute qualité sans traitement post-amplification.

Cette capacité native haute résolution est très pratique pour la conception professionnelle et les applications commerciales.

Dans le même temps, le rendu des images en résolution 1K est réduit à 3 secondes. Cette capacité de raisonnement efficace bénéficie d'un certain nombre d'optimisations techniques, permettant aux créateurs de vivre une expérience interactive en temps réel de « ce que vous pensez est ce que vous obtenez ». Pour des scénarios tels que la conception d'affiches et la créativité visuelle qui nécessitent une communication efficace avec la partie A. Cette vitesse est très pratique.

La composition de petits caractères chinois et de longs textes a toujours été un problème dans la peinture IA. Doubao 3.0 résout non seulement ce problème, mais améliore également la beauté de la composition à un niveau professionnel. Prenons l'exemple de la série d'affiches "Visual". Le contenu généré est riche en détails et magnifiquement typé, atteignant les normes commerciales.

En termes de génération de portraits, grâce à l'optimisation des données de détection de défauts et à la technologie de codage intermodal, le nouveau modèle est extrêmement réaliste en termes de texture de peau, d'expression naturelle, de texture de vêtements, etc., éliminant presque la « bizarrerie » générée par l'IA.

Actuellement, Seedream 3.0 est entièrement ouvert sur des plateformes telles que Doubao et Jimeng. Vous souhaiterez peut-être l'essayer par vous-même.

Modèle de compréhension visuelle : de la reconnaissance à la compréhension

Doubao 1.5·Le modèle de compréhension visuelle a réalisé des percées principalement dans deux directions : le positionnement visuel et la compréhension vidéo.

En termes de positionnement visuel, le nouveau modèle prend en charge des fonctions avancées telles que le positionnement multi-cibles (identifiant plusieurs objets en même temps), le positionnement de petites cibles (identifiant de très petits objets) et le positionnement de cible universel (non limité par les catégories de pré-entraînement). Il peut également effectuer un comptage de positionnement de points et un positionnement de scène 3D. Ces capacités constituent une base solide pour des domaines tels que la vision robotique et la conduite autonome.

Dans le même temps, le modèle a apporté des améliorations globales en termes de capacité de mémoire, de compréhension résumée, de perception de la vitesse et de compréhension de vidéos longues. Cela permet aux utilisateurs d'effectuer des recherches sémantiques sur les vidéos de surveillance à domicile, par exemple en demandant « Qu'est-ce que le chaton a fait à la maison aujourd'hui ? » Le système peut localiser et afficher les clips pertinents.

L'avenir de AI Agent : application + système d'exploitation

Cette fois, la principale avancée de Doubao 1.5 ne se reflète pas seulement dans les capacités du modèle, mais, plus important encore, elle fournit une base solide aux agents d'IA pour commencer à réfléchir aux « problèmes que l'IA devrait résoudre » au lieu de simplement rechercher des indicateurs techniques.

Tan Dai estime que la composition de l'agent AI peut être divisée en agents d'application verticaux et agents de système d'exploitation.

Dans le domaine des agents d'application, l'équipe Doubao a lancé des assistants d'IA professionnels pour différents scénarios verticaux, notamment des agents de service client, des agents de données, des agents de code, etc. Ces agents se concentrent sur des tâches dans des domaines spécifiques et possèdent des capacités professionnelles approfondies.

Le plus accrocheur est Trae, le premier IDE IA en Chine. Différent des plug-ins d'IA traditionnels, Trae intègre profondément l'IA aux environnements de développement intégrés et présente trois caractéristiques principales :

Delivery : orienté vers la livraison de logiciels plutôt que vers la simple génération de code, en partant des besoins essentiels
Intelligent : Capable de comprendre les informations et les intentions, de planifier et de réfléchir de manière indépendante et d'utiliser des outils pour effectuer des tâches.
Collaboration : capable de collaborer avec les utilisateurs dans plusieurs dimensions pour garantir la qualité du résultat final

Ce concept de conception permet à Trae d'aider les développeurs et les entreprises à réaliser leur travail de développement logiciel plus rapidement et avec plus de précision, en passant de la génération d'extraits de code à la livraison complète du logiciel.

OS Agent représente un niveau supérieur de capacités d'IA : il offre une polyvalence et une flexibilité multi-scénarios et peut faire fonctionner des navigateurs, des ordinateurs, des téléphones mobiles ou d'autres agents pour effectuer des tâches complexes.

Le cœur de la solution OS Agent de Volcano Engine est constitué du modèle beanbao et des produits veFaaS. À travers deux cas, vous pouvez comprendre intuitivement ses puissantes capacités :

Exécution de code : l'agent peut écrire du code et l'exécuter dans plusieurs langages tels que Python et NodeJS, par exemple générer des nombres de Fibonacci et afficher les résultats. Le modèle beanbag est responsable de la génération de code, et le bac à sable de sécurité du code veFaaS est responsable de la compilation et du fonctionnement sécurisés.
Fonctionnement du navigateur : l'agent peut effectuer une comparaison des prix des produits iPhone via le navigateur, rechercher automatiquement plusieurs plateformes de commerce électronique, extraire des informations sur les prix et effectuer une analyse comparative, et enfin donner des suggestions d'achat optimales.

Dans des scénarios plus complexes, OS Agent peut même faire fonctionner un logiciel professionnel. Par exemple, vous pouvez utiliser la version professionnelle de Jianying pour le montage vidéo et la bande sonore, ou utiliser l'application Doubao pour générer du contenu et le publier sur Toutiao ; sur le téléphone mobile, vous pouvez utiliser l'application désignée pour effectuer des tâches telles que la réservation de billets de train à grande vitesse.

Le cœur de ces fonctionnalités est le nouveau grand modèle d'agent GUI – UI-Tars, qui intègre la compréhension visuelle de l'écran, le raisonnement logique, le positionnement et le fonctionnement des éléments d'interface dans un modèle unique, dépassant ainsi les limites des outils d'automatisation traditionnels reposant sur des règles prédéfinies. UI-Tars a obtenu les meilleurs résultats parmi divers modèles nationaux dans des ensembles de tests tels que OS World.

Récemment, OpenAI Yao Shunyu a souligné dans un article que nous sommes entrés dans la « seconde moitié » du développement de l'IA. Contrairement à la première moitié, la seconde moitié ne se concentre plus uniquement sur les améliorations du modèle et les mesures techniques, mais se tourne plutôt vers la manière de définir des problèmes vraiment précieux et de mesurer les progrès réels.

Il est difficile de dire s’il était approprié de diviser Internet en moitiés supérieure et inférieure dans le passé, compte tenu du développement rapide et non linéaire de l’IA, mais certains changements sont effectivement en cours : les modèles ne sont plus utilisés comme un objectif, mais comme un outil pour résoudre des problèmes pratiques.

C'est peut-être ce qu'on appelle la « romance pragmatique » au sein de Byte. Le PDG de Byte, Liang Rubo, a souligné ce concept lors de la réunion de l'ensemble du personnel de Byte All Hands au début de l'année.

Cela a été initialement proposé par Zhang Yiming en 2019. Il pense que la romance pragmatique consiste à « transformer l'imagination en réalité, à faire face à la réalité et à la changer ».

Ce sera également la réponse de Byte aux changements drastiques dans l'industrie de l'IA provoqués par les produits DeepSeek et Agent.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo