Le nouveau Doubao Big Model 1.6 m’a épargné des heures supplémentaires ! Il propose également un outil vidéo qui surpasse Veo 3 et est le meilleur au monde.

12 juin 2025 Hibou Gourou

Dans quelle mesure ce grand modèle est-il devenu involutif ?

Au vu du rythme de cette année, ByteDance propose de nouvelles idées presque chaque mois, et même plus d'un modèle par mois. L'entreprise a lancé un modèle après l'autre, non seulement innovant, mais aussi véritablement amélioré, ce qui continue de renforcer la compétitivité du secteur.

En janvier, le modèle Doubao 1.5 Pro a été lancé.

En avril, le modèle de réflexion profonde Doubao 1.5, le modèle Wenshengtu 3.0 et le modèle de compréhension visuelle ont été mis à niveau simultanément.

En mai, le modèle de génération vidéo Seedance 1.0 lite, le modèle de réflexion visuelle approfondie Doubao 1.5 et le modèle musical, le texte, les images, les sons et les octets sont tous recherchés.

Lors de la conférence Force Power organisée par Volcano Engine aujourd'hui, la gamme de produits d'IA de ByteDance a continué à produire des produits sans aucune métaphysique, en se concentrant sur une grande quantité et une utilisation complète dès la sortie de la boîte.

De nouveaux modèles tels que Doubao Big Model 1.6, le modèle de génération vidéo Seedance 1.0 pro, DeepResearch qui peut rédiger des rapports sectoriels et des services cloud natifs d'IA tels que la plate-forme de développement Agent sont apparus les uns après les autres.

En fin de compte, vous ne comprendrez peut-être pas Transformer, mais vous pouvez certainement sentir que ces produits d’IA peuvent vraiment faire des choses pour les gens.

Les points forts de la mise à jour du produit sont les suivants :

Modèles de la série Doubao 1.6

Capacités de raisonnement améliorées, prenant en charge « penser tout en recherchant » et « recherche approfondie »
Excellente capacité de compréhension multimodale, meilleure compréhension et gestion des problèmes du monde réel
Le fonctionnement de l'interface graphique est plus intelligent et interagit en douceur avec d'autres outils
Excellent rapport qualité/prix

Modèle de génération vidéo Seedance 1.0 pro

Plusieurs prises de vue et différents changements de scènes, améliorant la quantité d'informations et de récit
Amélioration de la continuité du mouvement, de la stabilité de l'image et de la texture globale

Doubao Big Model 1.6 : Bon pour passer les examens, capable de réserver des hôtels et offrant un excellent rapport qualité-prix

Le point culminant de cette conférence est la série Doubao Big Model 1.6, qui se compose de trois modèles.

Doubao-Seed-1.6 : un modèle complet « tout-en-un »

Il prend en charge la réflexion approfondie, la compréhension multimodale et l'utilisation d'interfaces graphiques. La réflexion approfondie dispose de trois modes : activé, désactivé et automatique. En mode adaptatif, le modèle décide automatiquement d'activer la réflexion approfondie en fonction de la difficulté de la tâche, économisant ainsi du temps et des jetons. De plus, il s'agit du premier modèle en Chine à prendre en charge un contexte de 256 000.

Doubao-Seed-1.6-thinking : Une version améliorée en termes de réflexion profonde

La version 1.6 se concentre sur la réflexion. La capacité de réflexion a été renforcée et le système peut comprendre et gérer des tâches complexes avec plus de précision. Des améliorations ont également été apportées au codage, aux mathématiques, au raisonnement logique et au suivi des instructions. Il prend également en charge le raisonnement contextuel et multimodal 256k.

Doubao-Seed-1.6-flash : la version la plus rapide de la série 1.6

La latence est extrêmement faible, ce qui le rend particulièrement adapté aux situations où la latence est faible. La compréhension du texte est supérieure à celle du Doubao 1.5-lite, et la compréhension visuelle est comparable à celle des produits phares des autres fabricants.

Lors de la conférence, les modèles de la série Doubao 1.6 ont présenté plusieurs résultats d'évaluation faisant autorité. En particulier, les performances du Doubao 1.6 se classent parmi les meilleures au monde.

capacité de raisonnement

Il n’est pas nouveau de passer des examens de modélisation, mais il est rare d’obtenir un score aussi élevé que celui de l’Université de Pékin ou de l’Université Tsinghua.

Prenant l'exemple des capacités de raisonnement, Doubao 1.6 a réalisé des progrès significatifs par rapport aux modèles précédents. Doubao a obtenu 144 points aux questions de mathématiques du nouvel examen national d'entrée à l'université cette année, se classant ainsi premier du pays. En utilisant le test complet simulé de Haidian, contre 500 à 600 points l'année dernière, Doubao 1.6 a obtenu plus de 700 points en lettres et sciences humaines cette année.

L'un des points forts de Doubao en matière de raisonnement logique est qu'il pense non seulement par lui-même, mais sait aussi « chercher en réfléchissant ». Il décompose d'abord le problème, trouve l'information clé, effectue un tour de réflexion, puis effectue plusieurs tours de recherche en fonction des informations manquantes.

Par exemple, lorsqu'il a été demandé à Doubao de « détailler la répartition des insectes et des espèces communes dans la province du Guangdong et de les présenter sous la forme d'un rapport de recherche », l'équipe a d'abord examiné les exigences de format du rapport lors de sa réflexion approfondie, puis a rapidement défini le cadre du tri. Doubao a ensuite estimé que « le contenu devait être étayé par des données et des exemples précis », et a donc commencé à rechercher de manière indépendante des données sur l'environnement naturel dans la province du Guangdong et des recherches antérieures sur le sujet.

Il a également été mentionné lors de la réunion que Doubao teste actuellement la fonction DeepResearch. Auparavant, la rédaction d'un rapport professionnel prenait plusieurs heures, voire plusieurs jours, tandis que Doubao le réalise en 5 à 30 minutes. Il peut également extraire automatiquement des informations et les synthétiser sur une page web consultable.

De plus, pour faciliter l'utilisation des fonctions « penser tout en recherchant » et « DeepResearch » par les utilisateurs d'entreprise, le site Web officiel de Volcano Engine a lancé un grand laboratoire d'applications de modèles et a ouvert le code source, permettant aux utilisateurs de créer leurs propres prototypes d'applications d'IA et d'orchestrer de manière flexible leurs propres entités intelligentes.

Capacité de compréhension multimodale

L'ensemble de la série Doubao 1.6 prend en charge nativement les capacités de réflexion multimodale, permettant au modèle de mieux comprendre et gérer les problèmes du monde réel.

La compréhension multimodale prend en charge la dernière fonctionnalité « appel vidéo en temps réel » de Doubao. Côté entreprise, elle peut être largement utilisée pour l'évaluation des produits e-commerce, l'étiquetage des véhicules autonomes, les inspections de sécurité et d'autres scénarios.

Par exemple, le modèle peut être utilisé pour effectuer des évaluations standardisées des images téléchargées par les commerçants, ou pour comparer rapidement les prix de produits similaires.

Dans le domaine automobile, les modèles peuvent être utilisés pour identifier plus précisément la direction du déplacement d'une voiture et ses intentions de conduite, et sélectionner des segments spécifiques à partir de quantités massives de données routières pour former des modèles de conduite autonome en aval.

Dans des scénarios plus hors ligne, Doubao peut localiser et compter avec précision les informations dans l'image, accomplissant ainsi des tâches telles que les inspections de sécurité et les inspections de magasin.

Par exemple, si Doubao 1.6-thinking vérifie si l'absence de casque sur une photo d'exploration de grotte présente des risques potentiels pour la sécurité, il peut non seulement compter avec précision le nombre de casques portés sur la photo, mais aussi, étonnamment, réfléchir à la question « Est-il sécuritaire de porter un casque ? », puis analyser si les casques sont correctement portés, si les vêtements sont appropriés, si l'équipement d'éclairage est complet, si la distance de marche est suffisante, etc., et enfin, définir les priorités de correction.

Capacité d'opération de l'interface graphique

Grâce à sa capacité de réflexion visuelle approfondie et à sa capacité de positionnement visuel précis, Doubao 1.6 permet aux agents intelligents d'interagir et de fonctionner en douceur avec les navigateurs et autres outils, et d'effectuer efficacement des tâches telles que le filtrage des réservations d'hôtel et le tri des billets.

Le fonctionnement de l'interface graphique du modèle ne remplace pas seulement la commodité des personnes qui cliquent sur l'application avec leurs doigts, mais il peut dépasser les limites de l'application et de l'interface graphique traditionnelles pour répondre aux besoins essentiels des personnes de manière plus intelligente et plus automatique.

Rapport coût-efficacité

Doubao Big Model 1.6 adopte un modèle de tarification unifié. Que le mode de réflexion approfondie soit activé ou non, qu'il s'agisse de texte ou d'images, le prix des jetons est identique et dépend de la longueur du contexte d'entrée.

Dans la plage d'entrée de 0 à 32 000 utilisée par la plupart des entreprises, le prix est de 0,8 yuan/million de jetons pour l'entrée et de 8 yuans/million de jetons pour la sortie.
Dans la gamme d'entrée de 32 000 à 128 000, le prix est de 1,2 yuan/million de jetons pour l'entrée et de 16 yuans/million de jetons pour la sortie.
Dans la fourchette d'entrée de 128 000 à 256 000, le prix est de 2,4 yuans/million de jetons pour l'entrée et de 24 yuans/million de jetons pour la sortie.

Du point de vue du coût global, la plupart des demandes d'entrée sont inférieures à 32 000, et le ratio entrées-sorties est de 3:1. Le coût global de Doubao Large Model 1.6 (2,6 yuans) est inférieur de 63 % à celui de Doubao Large Model 1.5 Deep Thinking Model et de DeepSeek R1 (7 yuans). Cela signifie que vous pouvez utiliser un nouveau modèle doté de fonctionnalités plus puissantes et d'une fonctionnalité multimodale native pour seulement un tiers du prix initial.

Cette fois, Volcano Engine a également ajouté une zone de réduction spéciale. Pour les requêtes avec une entrée de 32 000 et une sortie inférieure à 200 jetons, le prix du Doubao Large Model 1.6 sera encore réduit à 0,8 yuan/million de jetons en entrée et 2 yuan/million de jetons en sortie. Cela correspond aux besoins de la plupart des modèles non-pensants, et vous pouvez également utiliser le nouveau modèle avec de meilleurs effets en toute sérénité.

Seedance 1.0 pro est désormais disponible : vous pouvez tourner des films à succès sans dépenser d'argent

En plus des modèles de la série Doubao Big Model 1.6, lors de cette conférence de presse, Volcano Engine a également présenté un nouveau modèle de génération vidéo Seedance 1.0 pro.

Le premier changement qui mérite d’être mentionné dans ce modèle est sa percée dans le langage des lentilles.

Le modèle prend en charge la saisie de texte et d'images et peut générer des vidéos 1080p de haute qualité avec une commutation multi-objectif fluide. Seedance 1.0 pro se concentre sur un cas d'utilisation multi-actions et une liberté de mouvement de caméra. Il permet non seulement la génération de vidéos de 10 secondes avec commutation de 2 à 3 objectifs, mais aussi la commutation entre plans d'ensemble, plans moyens et plans rapprochés, améliorant ainsi considérablement le contenu informatif et narratif de la vidéo.

De plus, grâce à l’ensemble de données multidimensionnelles et au mécanisme d’apprentissage par rétroaction introduits dans la phase post-formation, le nouveau modèle maintient un niveau très élevé en termes de continuité du mouvement, de stabilité de l’image et de texture globale.

Le nouveau modèle vidéo de Doubao ne s'arrête pas à la phase de démonstration. Qu'il s'agisse de créer des publicités, de réaliser rapidement des esquisses de storyboard ou de permettre aux clients de créer des personnages de jeu et des intrigues vidéo, le nouveau modèle vidéo de Doubao évolue progressivement vers ces scénarios les plus productifs.

Les classements d'Artificial Analysis, une agence d'évaluation tierce, montrent que Seedance 1.0 est actuellement le modèle le mieux classé dans les classements chinois et anglais.

Dans la liste des vidéos Wensheng, Seedance 1.0 affiche un score ELO de 1 299, surpassant Veo 3 Preview de Google, Veo 2 et la série Keling de Kuaishou. Dans la liste des vidéos Tusheng, Seedance 1.0 affiche un score ELO de 1 343, surpassant Runway Gen 4, Keling 2.0, etc., et est invincible.

Bien que les performances soient maximisées, le prix est étonnamment raisonnable.

Avec un budget de 10 000 RMB, vous pouvez générer 2 725 vidéos (5 secondes en 1080p) avec Seedance 1.0 pro, soit l'équivalent de 9 708 vidéos (5 secondes en 720p) avec Seedance 1.0 lite. En comparaison, la capacité de production de produits concurrents tels que KeLing v2.1 Master Edition et Veo2 (5 secondes en 1080p) est inférieure à 1 000.

En plus du modèle de génération vidéo, Doubao a également lancé simultanément un modèle vocal en temps réel à grande échelle, poussant l'anthropomorphisme et le contrôle sémantique vers de nouveaux sommets.

Il permet d'ajuster la tonalité, le volume, etc. en fonction du contexte ; il prend en charge les interactions vocales expressives comme le chant et le chuchotement ; et même les dialectes locaux, dont le dialecte du Sichuan. Lors de la démonstration en direct, le modèle vocal Doubao a également chanté « The Moon Represents My Heart ». Ça a l'air vraiment intéressant.

En termes de scénarios d'application réels, en plus de coopérer avec Mercedes-Benz pour développer l'interaction vocale embarquée, Doubao a également lancé un « modèle de génération de podcast » basé sur la technologie vocale en temps réel, qui prend en charge des structures vocales complexes telles que les conversations naturelles, les interruptions et les pauses entre plusieurs personnes.

Il peut reconnaître automatiquement le contenu d'entrée (invite, lien web, texte long), puis générer automatiquement un script de podcast complet et un contenu audio anthropomorphique. Du rythme à l'interjection, en passant par le ton d'un extrait de podcast présenté sur place, il n'y a quasiment aucune trace d'IA.

2025 marque la première année d'Agent. L'intégration effective d'un Agent au système d'entreprise est devenue un problème concret pour tous les fabricants.

Afin de mieux soutenir le développement et l'application des agents, Volcano Engine a lancé en une seule fois un ensemble complet de produits full-stack natifs du cloud AI, allant des services MCP, des outils d'invite intelligents PromptPilot, des systèmes de gestion des connaissances AI, aux cadres d'apprentissage par renforcement veRL, aux lacs de données multimodaux, au calcul privé AICC et aux pare-feu d'application de grands modèles.

Tan Dai, président de Volcano Engine, a souligné l'importance de la « sécurité » pour Agentic AI et a présenté deux produits de sécurité IA qui seront bientôt lancés : « AICC Confidential Computing » et « Large Model Application Firewall ».

Parmi eux, l'informatique confidentielle AICC peut permettre aux entreprises d'utiliser les services cloud de manière sûre et conforme, tout comme l'utilisation de modèles privés, tout en garantissant l'effet de raisonnement.

Le pare-feu d'application grand modèle est dérivé de « Volcano Ark » et peut intercepter les variantes d'attaque avec une faible latence et une haute précision, créant ainsi un espace de raisonnement sûr et fiable pour les applications intelligentes d'entreprise.

Tout au long de la conférence de presse, Volcano Engine n'a pas continué à valoriser l'IAG. Au lieu de cela, ils ont ramené leur perspective au présent et se sont concentrés sur les produits d'IA pouvant être implémentés, déployés et exécutés dans les environnements de production actuels.

Au cours des six derniers mois, le consensus du secteur s'est de plus en plus clairement établi : la seconde moitié de l'IA correspond en réalité à la première moitié du produit. Les différences de paramètres continueront d'être éliminées, mais l'efficacité des appels, le chemin d'intégration et le coût d'utilisation du produit détermineront le taux de fidélisation des utilisateurs.

C'est pourquoi, lors de la conférence de presse d'aujourd'hui, en plus du Doubao Big Model 1.6 et du modèle de génération vidéo Seedance 1.0 pro, Volcano Engine a également lancé simultanément un certain nombre de fonctionnalités de produits qui ne semblent pas si explosives mais qui sont extrêmement critiques.

De l'appel de modèle à la combinaison de scénarios spécifiques jusqu'à l'exécution en boucle fermée sûre et stable, ces capacités doivent être connectées les unes aux autres pour former un système de production d'IA véritablement utilisable.

Ce n’est peut-être pas le plus accrocheur, mais c’est peut-être le plus faisable et le plus proche de la « convivialité ».

Auteur : Wang Xin, Mo Chongyu

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo