Musk lance le « modèle le plus puissant » surpassant DeepSeek, coûtant plus de 200 fois plus cher

18 février 2025 Hibou Gourou

"C'est effrayant et intelligent", c'est ce qu'a dit Musk lorsqu'il a présenté Grok 3, si tôt ce matin que tout l'Internet attendait avec impatience.

Lors de la conférence de presse sur l'ensemble du réseau, l'App Store a été mis à jour en premier. Lors de la conférence de presse, la version Web de Grok était si populaire qu'elle a planté.

D'accord, j'ai l'air très confiant.

Grok 3 n'est pas une simple itération de produit. Avant cela, il s'agissait d'un centre de données construit par Musk, d'une configuration de carte graphique généreuse, du meilleur modèle de pré-formation et d'une utilisation continue de l'apprentissage par renforcement pour la formation. On peut l'appeler une nouvelle génération née de « l'enrichissement ».

Les points clés sont résumés comme suit :

Les comptes aux États-Unis peuvent être mis à jour, et le Royaume-Uni et l'Europe seront lancés dans la version 2.28.
Lancement du plan d'abonnement premium SuperGrok, avec des frais mensuels de 30 $ US et des frais annuels de 300 $ US, offrant des fonctions supplémentaires d'inférence et de requête DeepSearch, y compris des services de génération d'images illimités.

La capacité de raisonnement de Grok 3 est en avance sur DeepSeek R1

Dans le test aveugle LMSYS, connu sous le nom de Chatbot Arena, Grok 3 s'est classé premier dans divers aspects tels que le code et la réponse aux commandes.

En tant que produit né de 200 000 cartes graphiques, les performances de niveau défaut de Grok 3 prouvent encore que la loi de mise à l'échelle est toujours en vigueur.

Comparé à DeepSeek, qui génère des profits élevés à faible coût, Grok 3 se concentre sur « la réalisation de miracles avec une grande force ».

Cette fois, l'objectif de Grok 3, qui introduit des capacités de raisonnement, est d'allouer de manière plus flexible les ressources informatiques en temps réel pour garantir l'utilisation la plus intelligente des ressources informatiques tout en garantissant la qualité du raisonnement.

Les capacités de raisonnement de Grok 2 avaient déjà atteint le niveau SOTA à cette époque. Après plusieurs itérations, la capacité de généralisation du modèle a été grandement améliorée. Grok 3 a encore une fois rafraîchi son propre record lors de la dernière compétition AIME.

Cependant, il ne suffit évidemment pas d'avoir une forte capacité de raisonnement. Ce n'est qu'en étant rapide, impitoyable et précis que l'on peut participer à l'involution des grands modèles. Lors de la conférence de presse, l'équipe d'ingénierie a présenté deux cas.

L'une d'entre elles consistait à générer un code d'animation 3D lancé de la Terre à Mars et de retour à la Terre. Grok a réfléchi pendant 19 secondes et a décrit son processus de réflexion en détail, notamment en utilisant Python pour le dessin et NumPy pour les calculs.

L'autre essaie d'amener Grok à combiner les deux jeux "Tetris" et "Bejeweled" pour créer un nouveau jeu.

Malheureusement, Grok a subi deux renversements consécutifs dès sa sortie. Même Musk a regardé la mauvaise séance de démonstration à l'écran et n'a pas pu s'empêcher de prononcer « oh mec » avec embarras.

Cependant, lors des démonstrations ultérieures, des cas normaux ont également été présentés (si la démo n'était pas prête).

Et certains internautes chanceux ont déjà joué à Grok 3.

▲Photo de l'internaute X @jesselaunz

DeepSearch est là pour révolutionner les moteurs de recherche

En tant que produit à succès de cette mise à jour, DeepSearch optimisé par Grok 3 est connu comme le moteur de recherche de nouvelle génération. Le modèle fonctionnera de manière autonome comme un agent et comprendra l'intention derrière les questions de l'utilisateur, permettant ainsi de gagner du temps sur Google.

Lors de la session de démonstration en direct, l'ingénieur a posé à Grok 3 une question intéressante : prédire le nombre de victoires et de défaites dans la NCAA « March Madness », c'est-à-dire les résultats des jeux à tous les niveaux.

Il s'agit d'un événement lancé par Buffett en 2014, avec un pari pouvant atteindre un milliard de dollars américains, et le pari était de mettre Buffett en faillite. Historiquement, personne n’y est parvenu, ni même s’en est approché, car même si les experts le prédisent, il y a des tonnes d’erreurs après les premiers tours.

▲Tableau des matchs NCAA 2023

À l’époque, il s’agissait d’une campagne de marketing. Après tout, la probabilité de gagner était très faible, presque une sur cent milliards, ce qui était fondamentalement impossible. Il n'est pas déraisonnable de laisser ce problème à Grok 3.

En plus des documents cités, les réponses renvoyées étaient également structurées. L'introduction d'ouverture, les connaissances de base, les graphiques d'analyse et les remarques finales sont assez complets.

L'objectif de la recherche est de savoir comment recouper diverses sources d'information. Grok 3 accomplit cette tâche en concevant un panneau de sous-tâches afin que les utilisateurs puissent surveiller les tâches en cours en temps réel afin de garantir que les réponses sont disponibles et fiables.

Sur cette base, l'agent peut effectuer une recherche indépendante pendant dix minutes, ce qui équivaut à une heure de recherche à lui seul, ce qui peut réduire efficacement la charge de travail.

En fin de compte, Grok 3 a également donné ce qu'il pensait être le championnat NCAA 2025. Mars n'est pas encore arrivé, attendons de voir si sa « prophétie de Dieu » se réalisera.

Quant à la façon de découvrir Grok 3, les responsables ont déclaré que les abonnés Premium+ de X seront les premiers à en faire l'expérience, tandis que d'autres fonctionnalités avancées seront incluses dans le nouveau plan de xAI, SuperGrok.

SuperGrok coûte 30 $ par mois et 300 $ par an, ce qui fournit uniquement des capacités supplémentaires d'inférence et de requête DeepSearch, et comprend également des services de génération d'images illimités.

Jarvis est là ? Pas encore tout à fait là

Hier soir, Shivon Zilis a révélé sa conversation avec Ara, l'assistant d'intelligence artificielle alimenté par Grok 3, et a déclaré que c'était le gain le plus inattendu de la vie.

Cela a simplement accru les attentes de chacun concernant le mode vocal. Musk avait annoncé avant la conférence de presse que le mode vocal ne serait lancé que d'ici une semaine, ce qui signifiait également qu'il n'y avait aucune chance pour la session de démonstration.

Cependant, lors de la diffusion en direct, Musk a également déclaré que ce serait l'une des meilleures expériences de Grok. À la fin de la conférence, le modèle vocal a également émis une voix masculine, qui semblait assez humaine.

Ce petit extrait de Reuters a suscité une grande curiosité, et lors de la session QA, les questions sur le mode vocal ont afflué. Bien sûr, il y a aussi l'indispensable torture de l'âme désormais : « Est-ce open source ? Nous en avons extrait une partie ?

Assurance qualité

Q : Quand le modèle vocal Grok sera-t-il lancé ? Est-il basé sur la synthèse vocale, ou s'agit-il d'un modèle capable de comprendre la parole humaine et de répondre directement ?
R : Grok comprendra fondamentalement ce que disent les humains et publiera d’abord une première version d’ici une semaine, suivie de mises à jour itératives rapides.

Q : Quand l'API Grok sera-t-elle lancée ?
R : Il sera lancé dans les prochaines semaines et comprendra des modèles d'inférence et des capacités de recherche approfondies.

Q : Grok peut-il se souvenir des conversations interactives ?
Réponse : Nous travaillons dur pour développer cette fonctionnalité, mais elle n'est pas encore entièrement terminée.

Q : Le modèle Grok sera-t-il open source ? R : Lorsque Grok 3 sera mature et stable, Grok 2 sera open source dans quelques mois environ.

Q : Quelle a été la partie la plus difficile de la réalisation de ce projet ?
Réponse : Le plus grand défi est d'entraîner l'ensemble du modèle sur le massif H100 et de maintenir la cohérence.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo