La grande guerre des prix des modèles en Chine : les grands fabricants deviennent fous, Kaifu Lee et Wang Xiaochuan ne suivent pas, qui sera tué en premier ?

29 mai 2024 Hibou Gourou

Je ne m’attendais pas à ce que le « 618 » de cette année démarre avec un grand modèle d’IA.

En quelques jours seulement, les grands modèles nationaux comme Tencent, Alibaba, Baidu, iFlytek, etc. ont tous réduit leurs prix, nous permettant de ressentir à l'avance la simple ambiance « festival du shopping ».

▲ Résumé des réductions de prix actuelles des grands modèles nationaux

Mais avant de commencer, découvrons d’abord ce que ces constructeurs entendent par prix des gros modèles.

Normalement, après qu'une grande entreprise de modèles d'IA ait formé son propre grand modèle à source fermée, elle vend son API (Application Programming Interface, Application Programming Interface) aux développeurs et facture des frais.

▲ PI est comme un serveur dans un hôtel, photo de hububbble.com

Sur la base de l'API des grands modèles, les développeurs optimisent en alimentant les données, en affinant, etc. Il s'agit du modèle de monétisation de nombreux grands fabricants de modèles.

Il n'est pas difficile de voir que les changements de prix des grands modèles n'affecteront peut-être pas directement les consommateurs, mais affecteront directement le coût des développeurs créant des applications.

Bien qu'il existe actuellement certaines grandes entreprises modèles d'IA qui adoptent des systèmes d'adhésion, des systèmes basés sur le temps et d'autres modèles, ils sont généralement facturés en fonction de l'utilisation, de la même manière que les forfaits de trafic de téléphonie mobile, sauf que l'unité de facturation est passée de Go de trafic à des jetons. .

Cependant, il n’existe actuellement aucune norme unifiée pour la correspondance entre les jetons, les caractères chinois et les lettres, et chaque entreprise a également sa propre définition. Selon les informations précédentes, 1 jeton de Tencent ≈ 1,8 caractères chinois, 1 jeton de Tongyi Qianwen = 1 caractère chinois et, dans certains cas, 1 jeton ≈ 0,5 caractères chinois.

▲ Photos de l'Institut de recherche technologique Bingjian

Par conséquent, les normes de facturation de chaque entreprise sont différentes, mais elles suivent généralement la règle selon laquelle plus l'échelle du grand modèle est grande, plus la tarification est élevée. Après tout, il y a ici des coûts de formation.

À ce stade, les grands fabricants explorent encore le modèle commercial consistant à vendre des appels API. De nombreux fabricants tentent d'augmenter les appels API des grands modèles par diverses méthodes, mais la croissance n'est pas évidente.

Dans ce cas, la baisse des prix des API de grande taille pourrait inciter certains développeurs à essayer des applications d'IA à partir d'essais gratuits, ce qui revêt une certaine importance positive pour la conquête et l'activation du marché. C'est la prémisse et le contexte de cette « guerre ».

Préparez-vous, abandonnez-vous !

Le 6 mai, Magic Square Quantitative a pris les devants en lançant le premier coup de cette vague de « guerre » de réduction des prix. Le prix de son grand modèle DeepSeek-V2 est tombé à seulement 1 yuan par million de jetons d'entrée. Il a également lancé le slogan « . Connectez-vous et obtenez 500W avec le slogan "jetons".

Le 11 mai, Zhipu Big Model a également « suivi le rythme » et a lancé de nouvelles mesures préférentielles. Le quota pour les utilisateurs nouvellement enregistrés est passé de 5 millions de jetons à 25 millions de jetons.

Le prix du produit d'entrée de gamme GLM-3-turbo est passé de 5 yuans à 1 yuan par million de jetons, soit une baisse de 80 %.

Lors de l'annonce du prix, il a également comparé "intimement" son GLM-3-turbo avec Alibaba, Baidu et ChatGPT, qui étaient pleins de poudre à canon.

Par la suite, l’arrivée des fournisseurs de cloud a poussé cette vague de « guerre » de réduction des prix jusqu’à son paroxysme.

Le 15 mai, ByteDouBao a annoncé : « Le prix des grands modèles a été réduit ! » Tan Dai, président de Volcano Engine, a annoncé que le prix du modèle principal de DouBao sur le marché des entreprises est de 0,0008/millier de jetons, en comparant Baidu, Ali et les modèles. avec les mêmes spécifications sur le marché, le prix est généralement de 0,12/millier de jetons, permettant une involution des prix « de centimes en centimes ».

Il a également donné un exemple : « Un yuan peut acheter 1,25 million de jetons du modèle principal de Doubao », soit environ 2 millions de caractères chinois, ce qui équivaut à générer trois « Romance des Trois Royaumes ».

Le 21 mai, face à la guerre des prix de ByteDance, le responsable concerné d'Alibaba Cloud a déclaré dans une contre-attaque :

« De grandes sociétés modèles amicales ont proposé divers thèmes de réduction des prix. Le but de la réduction des prix est de profiter au marché. En Chine, quelle entreprise est réellement capable et dispose du capital nécessaire pour réduire les prix dépend de la capacité du modèle de base à être leader, si il existe des ressources de raisonnement, et si le modèle actuel est déjà utilisé par de nombreux utilisateurs, et les grands modèles ne sont pas le cœur de métier.

Dans le même temps, Alibaba Cloud a également lancé le slogan « percer les prix les plus bas du monde » et a collectivement réduit les prix de ses 9 grands modèles. Le prix du modèle assistant « niveau GPT-4 » Qwen-Long est tombé à 0,5. yuans par million de jetons. Entrée et sortie 2 yuans.

En d'autres termes, 1 yuan peut acheter 2 millions de jetons, ce qui équivaut au volume de texte de 5 « Dictionnaires Xinhua », mais le prix n'est qu'environ 1/400 du GPT-4.

Quelques heures plus tard, Baidu, une autre société toujours comparée, a également agi. Les deux principaux modèles de Wenxin Models, ERNIE Speed et ERNIE Lite, étaient directement et totalement gratuits.

Bien que ces deux modèles ne soient pas les modèles phares parmi ses grands modèles, ce sont actuellement les modèles qui servent le plus d'utilisateurs dans la grande série de modèles de Baidu Wenxin.

Le 22 mai, iFlytek a également annoncé qu'elle participerait au « concours de réduction de prix ». L'API iFlytek Spark Lite sera ouverte en permanence et gratuitement, et iFlytek Spark Pro/Max coûte aussi peu que 0,21 yuans/10 000 jetons. « L'utilisation d'iFlytek Spark 3.5 max ne coûte que 2,1 yuans et peut générer le contenu de « Alive » de Yu Hua.

Le même jour, Tencent Cloud a annoncé qu'il avait rejoint le camp de réduction des prix des grands modèles. Son prix d'API du modèle Hunyuan-lite est entièrement gratuit à partir de 0,008 yuans/millier de jetons. Le modèle Hunyuan nouvellement lancé et le modèle de paramètres de mille milliards de configuration le plus élevé. -pro API sont tous deux Une réduction de prix se produit et entre en vigueur immédiatement.

À ce stade, presque tous les grands fabricants de modèles sont entrés dans le jeu. Il semble que du jour au lendemain, les grands modèles aient collectivement entamé une folle réduction de prix.

L’innovation technologique derrière la « guerre des prix »

Non seulement les fabricants nationaux, mais également les grands modèles étrangers représentés par OpenAI baissent également constamment les prix des grands modèles. Bien qu'ils ne soient pas aussi concentrés que les fabricants nationaux, ils agissent plus tôt que les fabricants nationaux.

Le turbo GPT-3.5, lancé en mars 2023, réduira le coût par millier de jetons à 0,002 $ US, soit 90 % de moins que le turbo GPT-3.5 précédent.

Le prix des jetons d'entrée de GPT-4 Turbo publiés en novembre n'est que de 1/3 de GPT-4, et le prix des jetons de sortie est de 1/2 de GPT-4.

Le GPT-4o récemment sorti est 2 fois plus rapide que le précédent GPT-4 turbo, mais son prix est moitié moins cher. Son prix a été réduit quatre fois de suite depuis 2023.

Il n'est pas difficile de constater que pour OpenAI, la réduction des prix est devenue sa stratégie principale de mise à niveau continue et d'expansion du marché. D'autres grands modèles comme Gemini n'oublient pas non plus d'ajouter des changements de prix après performance, et de fortes baisses de prix sont devenues une tendance générale.

En fait, qu'il s'agisse d'un grand modèle national ou d'un grand modèle étranger, la raison fondamentale de la baisse des prix est la réduction rapide des coûts d'inférence.

Il n'y a pas si longtemps, DeepSeek-V2 nous a présenté dans un article qu'il utilisait le MLA (Multi-head Latent Attention) combiné avec le MoE (Mixture-of-Experts expert hybrid model) pour obtenir une amélioration à plusieurs niveaux des performances du modèle. du calcul, du raisonnement existant et des cas de coûts. Les amis intéressés peuvent cliquer pour voir le texte original :

https://github.com/deepseek-ai/DeepSeek-V2/blob/main/deepseek-v2-tech-report.pdf

À mesure que la puissance de calcul augmente et que les algorithmes continuent de progresser, cette tendance va se poursuivre. Dans une récente interview, Kai-Fu Lee, président-directeur général de Sinovation Ventures, a parlé de la récente frénésie de réductions de prix et a estimé qu'« on s'attend à ce que l'ensemble du secteur réduise les coûts d'inférence de 10 fois chaque année, et cela doit se produire ».

Cependant, il a également déclaré que ce qui émerge actuellement est une approche non durable de type "ofo", perdant-perdant, affirmant : "Si la technologie n'est pas bonne, nous compterons uniquement sur les remises et les pertes pour faire des affaires. Nous ne suivrons jamais une telle approche". une tarification. Faites une analyse comparative.

Cela vient de sa confiance dans ses grands modèles : « Tout comme Tesla, elle ne baissera pas les prix simplement parce que les autres marques de voitures sont moins chères que lui. »

Cependant, nous savons tous que Tesla ne baisse pas réellement les prix, et devient même parfois un pionnier en matière de baisse de prix. On se demande si ses remarques ne deviendront pas un « boomerang » à l'avenir.

▲ Kai-fu Lee, président-directeur général d'Innovation Works, photo prise sur Internet

La vague est à portée de main

Outre Kaifu Li, Wang Xiaochuan, fondateur de Baichuan Intelligence, a également une compréhension différente de cette guerre des prix :

"Je pense que, tout comme le Didi Meituan original, cela stimulera l'ensemble du marché B à prospérer plus rapidement, et tout le monde sera plus disposé à l'essayer."

Selon lui, la guerre des prix rappellera en fait aux fabricants qui se sont aveuglément lancés dans la grande industrie du modélisme, parce qu'ils craignaient de prendre du retard, de reconsidérer leur positionnement et d'éliminer certaines entreprises qui "n'ont pas réfléchi clairement".

"Quand la marée monte et descend, il y aura des perles à la fin. Il doit y avoir une bulle à l'intérieur. La guerre des prix rendra la bulle plus prospère. Cela ne veut pas dire qu'il n'y a pas de bulle dans la situation. Dans la bulle précédente, De nombreuses entreprises ont estimé qu'elles devaient former des modèles. Cela n'est pas sain. Il n'est pas nécessaire d'avoir autant de fournisseurs de modèles sur le marché, et il n'est pas nécessaire de mener une guerre de milliers de modèles ou une guerre de dix mille modèles.

▲ Wang Xiaochuan, PDG de Baichuan Intelligence

Fu Sheng, président-directeur général de Cheetah Mobile, estime qu'il s'agit d'une décision impuissante après que l'homogénéisation des grands modèles rend difficile la suppression de l'écart de performance :

"Cette forte baisse de prix a essentiellement annoncé que les startups de grands modèles devaient trouver de nouveaux modèles commerciaux. À court terme, les performances des grands modèles se sont heurtées à un goulot d'étranglement. Personne ne peut se débarrasser de qui que ce soit, et personne ne peut trouver un atout. réduire les coûts d’inférence et réduire les coûts est désormais devenu une priorité élevée pour chaque entreprise.

Il ne fait aucun doute que les grands fabricants ont baissé leurs prix, ce qui signifie une pression concurrentielle plus forte pour de nombreuses startups du grand secteur du modélisme.

En fait, lorsqu'une industrie entre dans la phase de réduction globale des prix, cela signifie le début d'une concurrence d'élimination à grande échelle et, en fin de compte, il ne reste souvent que quelques entreprises.

Nous constatons souvent qu'au début du développement de l'industrie, en raison de l'énorme tentation des « fenêtres », diverses bonnes et mauvaises entreprises se font souvent concurrence sur le marché. Cependant, après une ou plusieurs séries de baisses de prix à grande échelle, l'industrie est remaniée et l'efficacité est inefficace. Les entreprises les plus performantes sont évincées du marché.

À l’heure actuelle, ce processus dans le domaine de l’IA semble s’accélérer, notamment pour les constructeurs dont les grands modèles n’ont pas d’avantages sur le marché.

Mais d’un autre côté, la réduction des prix des grands modèles est une bonne nouvelle pour les utilisateurs, car cela signifie qu’ils peuvent accéder et utiliser la technologie avancée d’IA à moindre coût, et qu’il est plus facile de produire d’excellentes applications d’IA sur le marché.

Cependant, à l'heure actuelle, la commercialisation de l'ensemble de l'industrie est encore loin de former un écosystème. Outre les grandes entreprises modèles en Chine, il existe encore un grand déficit dans l'équipe de développement d'applications d'IA.

Selon les dernières données publiées par Baidu, le grand modèle de Wenxin traite 250 milliards de jetons de texte par jour et ByteDance traite 120 milliards de jetons de texte par jour. Cependant, une grande partie de cela concerne les activités internes des grandes entreprises utilisant des applications d'IA et l'exploration commerciale. . On peut voir qu'actuellement, en fait, l'ensemble de l'industrie n'a pas encore formé un écosystème.

Les analystes de Bloomberg ont également souligné précédemment : « La Chine sera confrontée à un long chemin vers la rentabilité dans le domaine de l'IA, et un remaniement industriel pourrait favoriser la rentabilité du secteur, mais il semble peu probable que cela se produise de sitôt. La question du coût a toujours été un facteur limitant important. » développement de l’industrie.

IDC prédit que le marché chinois des grands modèles d'IA atteindra 21,1 milliards de dollars en 2026 et que l'intelligence artificielle entrera dans une période critique pour une mise en œuvre à grande échelle.

On pense qu'avec la baisse du prix des grands modèles, ainsi que le développement de la multimodalité, la vitesse d'inférence accélérée et la réduction des coûts, la recherche, les PC/téléphones mobiles IA ou d'autres produits électroniques grand public deviendront un vaste espace. pour le développement d’applications d’IA.

Une telle opportunité pourrait rappeler à beaucoup de gens l'époque où Internet était en plein essor. En fait, les deux présentent de nombreuses similitudes. C'est aussi une raison importante pour laquelle Huang Renxun a déclaré que l'ère actuelle était la « prochaine révolution industrielle ».

La baisse des coûts marginaux pourrait être la cause directe de la révolution des plateformes d'IA

Martin Casado, partenaire d'A16Z, a un jour estimé qu'il y avait eu deux cas dans l'histoire de changements de plate-forme et de révolutions industrielles causés par la baisse des coûts marginaux, à savoir les puces et Internet.

La naissance des puces a réduit le coût marginal de l’informatique à presque zéro. Avant cela, les calculs devaient être effectués manuellement. Les gens devaient créer des tableaux de logarithmes à mains nues dans une grande pièce.

Ensuite, ENIAC et d'autres machines ont été introduites, et la vitesse de calcul a rapidement augmenté de quatre ordres de grandeur. La révolution informatique qui a suivi a donné naissance à un grand nombre de nouvelles industries, a revitalisé de nombreuses entreprises et a donné naissance à un certain nombre de nouvelles entreprises.

Puis, à l’ère d’Internet, le coût marginal de distribution est tombé à 0. Autrefois, peu importe ce que l’on envoyait (une boîte ou une lettre), il y avait un certain coût après l’apparition d’Internet, le prix par bit baissait fortement.

Il s'agit également d'une amélioration de quatre ordres de grandeur, qui a contribué au développement rapide des industries connexes et a conduit à la révolution Internet. Au cours de cette période, des sociétés telles qu’Amazon, Google et Meta sont devenues des représentants.

À l’instar des deux technologies ci-dessus, l’IA constitue également une révolution de productivité axée sur les coûts. Les grands modèles réduisent à 0 le coût marginal de création, comme la création d'images et la compréhension du langage, etc. Il a également donné un tel exemple.

Si vous vouliez créer un personnage animé de style Pixar sur vous-même, un grand modèle coûterait environ 0,01 centime et ne prendrait qu'une seconde, mais embaucher un graphiste pour une heure coûterait environ 100 $, peut-être plus.

Plutôt que d’être légèrement meilleure, l’IA est moins chère et plusieurs fois plus rapide.

▲ Comparez le coût et le temps nécessaire à la génération d'images entre l'intelligence artificielle et les graphistes

En 1865, l’économiste britannique William Stanley Jevons observait que les améliorations technologiques rendant l’utilisation du charbon plus efficace entraîneraient plutôt une augmentation de la consommation de charbon dans un large éventail d’industries.

Il estime que, contrairement à l'intuition de nombreuses personnes, une efficacité accrue entraîne une baisse des prix, ce qui stimule à son tour une demande accrue.

En d’autres termes, lorsque le progrès technologique améliore l’efficacité de l’utilisation des ressources, mais que la réduction des coûts entraîne une augmentation de la demande, le taux de consommation des ressources augmente plutôt que diminue. C’est le fameux « paradoxe de Jevons ».

▲ William Stanley Jevons (1835.9.1—1882.8.13)

Dans le passé, les puces et Internet constituaient de telles ressources. En raison de l'amélioration de l'efficacité informatique et de l'information et de la réduction des prix, ils stimulaient davantage de demande, généraient davantage de valeur et de services, et donnaient naissance à de nouveaux transferts de plates-formes et à des révolutions industrielles, augmentant ainsi la productivité. et les revenus des gens, changeant finalement l'apparence du monde entier et la vie de chacun de nous.

C’est l’histoire des puces et d’Internet il y a de nombreuses années, et c’est aussi l’histoire de l’IA d’aujourd’hui.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo