Sept versions consécutives du modèle rafraîchissent le niveau SOTA, la Chine donne naissance à l’Android de l’ère de l’IA

25 septembre 2025 Hibou Gourou

600 millions de téléchargements, 170 000 modèles dérivés, au service de plus d'un million de clients.

En 2025, alors que la guerre de l'IA battait son plein, le modèle d'IA open source le plus utilisé au monde provenait du Tongyi Big Model d'Alibaba. Il n'est pas exagéré de dire que lorsque les développeurs du monde entier ont besoin d'un modèle gratuit, facile à utiliser et sans restrictions commerciales, ce modèle est devenu le choix par défaut.

Lors de la conférence Yunqi d'aujourd'hui, sept nouveaux membres de la grande famille de modèles Tongyi ont été dévoilés, couvrant de multiples domaines tels que le langage, la vision, la voix, la multimodalité et le code. De l'écologie open source aux services commerciaux, ils couvrent la quasi-totalité des maillons clés des applications d'IA actuelles.

Ces sept modèles ont une division claire du travail : Qwen3-Max joue le rôle de « plafond », avec des milliards de paramètres comparés aux modèles les plus puissants du monde ; Qwen3-Next se concentre sur « l'inclusivité », obtenant des performances de voiture de sport avec la consommation de carburant d'une berline ; Qwen3-VL transforme les croquis en code en quelques secondes, Qwen3-Omni est un assistant entièrement modal, Qwen3-Coder est spécialisé dans la programmation, Wan2.5-preview réalise la création de vidéos au niveau du film, et Tongyi Bailing Fun fournit des centaines de services sonores.

Le PDG du groupe Alibaba, Wu Yongming, a annoncé directement deux grandes feuilles de route pour Alibaba Cloud : l'une est que Tongyi Qianwen insiste sur l'open source et vise à devenir « l'Android de l'ère de l'IA » ; l'autre est de construire « l'ordinateur de nouvelle génération » – le super cloud IA, pour fournir au monde un réseau informatique intelligent.

Avec le recul, Alibaba a peut-être pris la décision la plus importante de cette époque : les entreprises d’IA ne devraient pas seulement raconter des histoires sur le dépassement de l’intelligence humaine, mais aussi raconter des histoires sur la manière de permettre à chacun d’avoir l’IA – et cette dernière pourrait être plus imaginative.

Des modèles aux écosystèmes, la gamme complète de produits de Tongyi Qianwen est ici

Avec sept modèles sortis d'affilée, quelles sont les nouveautés de la famille de modèles réduits Tongyi Qianwen cette fois-ci ? Après analyse, le résultat est éblouissant, mais le thème principal est clair : deux atouts et une table de plats raffinés.

▲Plusieurs modèles ont été open-sourced sur Hugging Face lors de la conférence de presse

Le premier atout est Qwen3-Max.

Il s'agit du « plafond » d'Alibaba, avec plus de mille milliards de paramètres et 36 mille milliards de jetons utilisés pour le pré-entraînement. Bien que son architecture reprenne la conception MoE de la série Qwen3, elle a apporté des améliorations significatives à ses méthodes d'entraînement.

Par exemple, l'équilibrage de charge global et le parallélisme des pipelines rendent le processus de formation plus stable et empêchent les fluctuations anormales ; l'efficacité est 30 % plus rapide que la génération précédente ; il peut également prendre en charge des textes longs de 1 million de mots ; même les pannes matérielles courantes dans les clusters à grande échelle peuvent réduire la perte de temps à un cinquième de l'original.

Points clés :

Le modèle phare, Qwen3-Max, améliore considérablement les capacités de programmation et d'agent intelligent, avec des performances exceptionnelles dans plusieurs tests de performance.

Qwen3-Max-Base : met l'accent sur une formation efficace à grande échelle, un contexte long et une stabilité exceptionnelle.
Qwen3-Max-Instruct : Classé parmi les trois premiers au classement mondial des logiciels de texte LMArena, surpassant GPT-5-Chat. Il a obtenu un score de 69,6 au test de code vérifié SWE-Bench et un score de 74,8 au benchmark d'appel d'agent intelligent Tau2-Bench, surpassant Claude Opus 4 et DeepSeek-V3.1.
Qwen3-Max-Thinking (Heavy) : une version de raisonnement améliorée combinant un interpréteur de code et le calcul parallèle. Elle atteint une précision de 100 % sur des tests de raisonnement mathématique complexes tels que AIME 25 et HMMT, démontrant ainsi un fort potentiel de raisonnement. Elle est encore en cours de formation.

Globalement, Qwen3-Max a propulsé son architecture d'ingénierie, son efficacité d'entraînement, son contexte long, ses capacités de raisonnement et ses tâches d'agent intelligent à des niveaux de pointe. Ses performances, tant sur les tests de code que sur les tests de raisonnement, démontrent que les modèles chinois entrent véritablement dans une phase où ils peuvent rivaliser avec les plus puissants concurrents.

Le deuxième atout est Qwen3-Next.

Si Max est le visage d’Alibaba, Next en est le cœur : il le rend véritablement abordable et réalisable pour les développeurs et les entreprises.

Les grands modèles sont souvent confrontés à un « triangle impossible » : hautes performances, faible coût et facilité de déploiement, et il est difficile d'atteindre ces trois objectifs. Les modèles haut de gamme (tels que GPT-4/5) s'accompagnent souvent de coûts d'inférence élevés, ce qui constitue le principal obstacle à l'adoption de l'IA.

▲L'efficacité de la formation et de l'inférence de Qwen3-Next a été grandement améliorée

La solution d'Alibaba est d'utiliser Qwen3-Max pour franchir le « plafond » de performance, puis d'utiliser Qwen3-Next pour franchir le « plancher » de coût.

Grâce à des innovations architecturales de nouvelle génération, telles que le MoE très clairsemé et l'attention hybride, il atteint les performances d'un modèle dense de 235 B avec seulement 3 B de paramètres d'activation. Cela équivaut à atteindre les performances d'une voiture de sport avec la consommation d'une berline. Résultat : une réduction de 90 % des coûts de formation et une multiplication par dix de l'efficacité de l'inférence de textes longs.

▲ Qwen3-Next adopte une nouvelle architecture de modèle de nouvelle génération combinant attention linéaire et attention standard. Songlin Yang, auteur de Gated Delta Networks, a retweeté Qwen.

Cette capacité systématique transforme la vision selon laquelle « tout le monde peut utiliser l’IA » d’un slogan en réalité, et est bien plus perturbatrice pour l’industrie que la simple sortie d’un modèle haute performance.

Une table pleine de plats délicieux : elle couvre tout le travail auquel vous pouvez penser

▲Le modèle de langage visuel Qwen3-VL surpasse Gemini 2.5 Pro dans plusieurs tests de référence

Qwen3-VL : Le modèle visuel est désormais open source, passant de la reconnaissance d'images au raisonnement et à l'exécution. Il permet d'exploiter des interfaces informatiques et mobiles, et de générer du code HTML/CSS directement à partir d'un croquis. Pour de nombreux chefs de produit, cela signifie que le principe « ce que vous voyez est ce que vous obtenez » est devenu une réalité.
Qwen3-Omni : une plateforme multimodale capable de traiter simultanément du texte, des images, de l’audio et de la vidéo. Elle a obtenu la première place dans 32 tests open source sur 36 benchmarks accessibles au public, et a atteint des performances de pointe dans 22 d’entre eux. Elle prend également en charge les conversations vocales en temps réel et propose même des personnalités personnalisables, comme un assistant personnel parlant plus d’une douzaine de langues.

▲ Dans une évaluation complète des performances, Qwen3-Omni a surpassé les modèles à source fermée tels que Gemini-2.5-Pro, Seed-ASR et GPT-4o-Transcribe dans plusieurs tests.

Qwen3-Coder : Grâce à un modèle de programmation amélioré, il est plus rapide et plus sûr. Il peut vous aider directement à déployer un projet complet et à corriger facilement les bugs. Pour les développeurs, c'est plutôt un partenaire de programmation toujours disponible.
Aperçu de Wan2.5 : Une fonctionnalité phare de l'AIGC. Elle offre des capacités améliorées pour la génération, la retouche et la création de vidéos et d'images. Point crucial : elle permet pour la première fois une génération vidéo de qualité cinématographique avec synchronisation audio et vidéo. Avec des vitesses de 5 à 10 secondes, une résolution de 1080p et une cadence de 24 images par seconde, ce n'est plus un simple gadget ; c'est un outil permettant aux créateurs individuels de créer des courts métrages.

De plus, la gamme Tongyi Bailing Fun de modèles vocaux à grande échelle propose des centaines de voix pour des scénarios tels que le service client, le streaming en direct, le e-commerce et les livres audio. Il existe également Qwen3Guard, un modèle d'audit de sécurité conçu pour la sécurité de l'IA en temps réel à l'échelle mondiale, basé sur Qwen3, et Qwen3-LiveTranslate-Flash, un modèle de traduction multimodale en temps réel.

En combinant tout cela, vous constaterez qu'Alibaba envoie un message très clair : vous recherchez la performance ultime ? Voici Max. Vous recherchez l'efficacité ultime ? Voici Next. Vous recherchez l'exploration multimodale ? Voici VL et Omni. Vous recherchez la productivité en codage et en création ? Voici Coder et Wan…

▲Qwen3-Omni est un modèle omnimodal natif de nouvelle génération capable de traiter de manière fluide de multiples formes d'entrée, telles que du texte, des images, de l'audio et de la vidéo. Il est désormais disponible via le chat vocal et vidéo dans Qwen Chat.

Il ne s'agit pas d'une simple « pile de nouveaux produits », mais d'un écosystème complet, de toutes tailles et de toutes modalités. Alibaba les propose tous aux utilisateurs simultanément, affirmant ainsi à toutes les entreprises, particuliers et développeurs : quelle que soit votre activité, la famille de modèles Tongyi possède un élément constitutif capable de répondre à vos besoins.

Mais l'importance de cette « version complète » ne réside pas seulement dans l'enrichissement du produit. L'apparition simultanée de sept modèles démontre clairement que la famille Tongyi Qianwen couvre désormais toutes les tailles et modalités, et que chaque modèle a atteint des performances de pointe dans les revues grand public.

C'est précisément cette base solide qui nous a valu une position unique dans le secteur. Comme l'a déclaré Wu Yongming, PDG du groupe Alibaba, lors de la conférence de presse d'aujourd'hui : « Tongyi Qianwen est sans doute le modèle le plus répandu dans le monde des appareils informatiques. »

Sur Hugging Face, la plus grande communauté de modèles d'IA open source au monde, la recherche du mot-clé « qwen » donne accès à plus de 160 000 modèles similaires, tous téléchargés des millions de fois. Actuellement, le modèle de la série Qwen enregistre le plus grand nombre de téléchargements, atteignant 7 millions (Qwen2.5-3B-Instruct).

À ce jour, Tongyi Qianwen a publié en open source plus de 300 modèles, couvrant toutes les modalités et toutes les tailles. Ces modèles sont les plus utilisés en Chine et les plus populaires auprès des développeurs du monde entier. Les modèles de Tongyi ont été téléchargés plus de 600 millions de fois dans le monde, avec plus de 170 000 modèles dérivés, ce qui en fait la plus grande matrice de modèles open source au monde.

De toute évidence, dans ce domaine des modèles à grande échelle encore dominé par les géants internationaux, une famille de modèles open source en provenance de Chine fait sentir sa présence à sa manière et rafraîchit le statut historique de l'IA nationale.

Dans la seconde moitié de l'ère des grands modèles, Tongyi Qianwen vise à devenir l'Android de l'ère de l'IA

En 2019, lorsqu'Alibaba a testé un modèle de 10 000 milliards de paramètres sur son M6, le concept de « grands modèles » restait largement académique, loin d'être industrialisé. Quatre ans plus tard, le lancement officiel de Tongyi Qianwen a marqué un tournant.

De Qwen-7B, 14B à 72B, puis aux paramètres actuels (mille milliards), le parcours de Qwen n'est pas idyllique. Il consiste à étendre continuellement l'échelle, à optimiser, à vérifier et à élargir progressivement une famille de modèles.

Les paramètres totaux des modèles Qwen2 et Qwen2.5 en 2024 et du Qwen3-Max publié aujourd'hui dépassent 1T, et 36T de jetons sont utilisés pour la pré-formation, améliorant encore les capacités de codage et d'agent.

Alors que les grands modèles entrent dans leur phase finale, les modèles open source deviennent une tendance irréversible. La Chine est devenue quasiment l'acteur le plus important de l'open source mondial, Alibaba et DeepSeek jouant les rôles les plus importants.

Wu Yongming est franc à ce sujet : « À l’ère du LLM, la valeur créée par les modèles open source et les scénarios qu’ils peuvent pénétrer seront bien plus importants que ceux des modèles closed source. »

Les plus grandes entreprises de modélisation au monde ont chacune leurs propres objectifs : certaines servent principalement leurs propres écosystèmes, tandis que d’autres contribuent aux activités sociales et publicitaires. Certaines se concentrent sur les outils et la croissance des utilisateurs, tandis que d’autres privilégient l’intégration complète des modes de communication et de la recherche. Alibaba, quant à elle, aspire à devenir l’« Android de l’ère de l’IA ».

Le succès d'Android ne réside pas dans sa puissance et sa perfection par rapport à iOS, mais dans sa capacité à s'adapter à une large gamme d'appareils, des téléphones anciens coûtant quelques centaines de yuans aux écrans pliables coûtant des dizaines de milliers de yuans, permettant au marché des smartphones de véritablement prospérer.

La logique de Qwen est exactement la même. Du 0,5B au Qwen3-Max « à grande échelle » avec des milliards de paramètres, du Qwen3-Coder pour l'écriture de code au Qwen3-VL pour le « codage par visualisation d'images », en passant par les appareils Tongyi Wanxiang et Tongyi Bailing capables d'écouter et de parler avec un son et une vidéo synchronisés, et même le Qwen3-Omni qui permet une conversation vocale en temps réel comme une vraie personne, Alibaba dispose de presque tous les outils imaginables pour un développeur.

Derrière cela se cache un changement de mentalité : Alibaba ne décide plus pour vous « quoi utiliser », mais restitue au marché le droit de choix, de définition et même le contrôle ultime des coûts.

Qwen joue le rôle le plus difficile et le plus fatigant mais irremplaçable – le système Android à l'ère de l'IA, fournissant « l'eau, l'électricité et le gaz » de base pour la mise en œuvre d'applications et de scénarios d'IA.

En fait, plus d'un million d'entreprises ont déjà accès aux services de modélisation à grande échelle de Tongyi via Alibaba Cloud. Tout comme l'accès à l'eau et à l'électricité, l'IA est considérée comme la forme la plus fondamentale de productivité. Malgré des retards répétés, le déploiement de l'IA par Apple en Chine est quasiment confirmé, en partenariat avec Qwen. C'est la première fois qu'une modélisation chinoise à grande échelle fait son entrée sur le marché de l'iPhone.

Aujourd'hui, lors de la conférence Yunqi, Wu Yongming a également annoncé qu'Alibaba investirait plus de 380 milliards de yuans au cours des trois prochaines années dans les infrastructures matérielles cloud et IA, et qu'elle prévoyait des investissements encore plus importants. Selon les plans à long terme, pour préparer l'avènement de l'ère ASI, la consommation énergétique mondiale des centres de données d'Alibaba Cloud devrait être multipliée par dix d'ici 2032 par rapport à 2022, année de la première GenAI.

Il s'agit également du « Model as a Service » (MaaS) auquel Alibaba Cloud adhère depuis 2022. Il positionne les grands modèles comme l'élément central de la productivité et s'appuie sur la puissance de calcul et l'infrastructure d'Alibaba Cloud pour fournir aux entreprises des capacités d'IA hautes performances et à faible coût.

Lorsqu’une plateforme tente d’abaisser le seuil d’innovation pour l’ensemble de la société, ce qu’elle peut soutenir n’est pas seulement sa propre valeur commerciale.

Pour les développeurs et les entreprises qui se débattent avec la question de « quel modèle utiliser », l’émergence d’un système « IA Android » ouvert, bon marché et facile à utiliser, c’est comme revenir à l’ère de la découverte, où quelqu’un a construit un port pour vous et a également rendu toutes les cartes nautiques du monde ouvertes au public.

Il semble qu’il n’y ait pas d’autre choix que de prendre la mer.

Auteurs : Li Chaofan, Zhang Zihao, Mo Chongyu

#Bienvenue pour suivre le compte public officiel WeChat d'iFaner : iFaner (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo