Les frais annuels dépassent les 20 000 $ ! Musk vient de lancer l’IA la plus coûteuse : Grok 4, qui promet de surpasser les doctorants de tous les domaines.

Musk a hésité pendant près de six mois et a finalement mis Grok 4 sur la table.

Cette fois, son ton était encore assez ferme. Avant le lancement, il a affirmé avec audace que Grok 4 allait « réécrire la base de connaissances humaines ». Lors du lancement, Musk a une fois de plus souligné que Grok 4 était actuellement l'IA la plus intelligente au monde.

Oui, goût familier, recette familière.

Bien sûr, tout le monde est habitué à voir Musk faire l'éloge de ses propres produits, mais comme l'ont plaisanté les internautes, vous pouvez rire des employés de xAI qui dorment dans des tentes de bureau ou travaillent jusqu'à 4h20 du matin le week-end, mais vous devez admettre qu'ils sont en effet l'un des laboratoires d'IA à la croissance la plus rapide.

Que Grok 4 puisse être qualifié d'« IA la plus intelligente » dépend de l'expérience réelle. Une chose est sûre : il s'agit de l'IA la plus chère du marché, avec un abonnement annuel pouvant atteindre 3 000 $. Cette stratégie tarifaire est tout à fait contraire à l'éthique.

L'IA la plus intelligente du monde ? L'IA la plus chère du monde !

Le parcours d'apprentissage de Grok se divise en deux étapes principales : le pré-apprentissage et l'apprentissage par renforcement. De Grok 2 à Grok 3, il repose principalement sur le pré-apprentissage ; de Grok 3 à Grok 4, l'apprentissage par renforcement, axé sur la capacité de raisonnement, est largement introduit.

Musk a minimisé l’incident, mais la formation n’était pas une mince affaire.

Par rapport à Grok 2, le calcul d’entraînement de Grok 4 a augmenté de deux ordres de grandeur, soit une augmentation de 100 fois, et il continue de s’étendre.

Musk a déclaré que Grok 4 avait dépassé le niveau doctoral dans toutes les disciplines majeures. Bien qu'il ne soit pas encore en mesure d'inventer de nouvelles théories ou de développer des technologies originales, ce n'est, selon lui, qu'une question de temps.

Il a même déclaré que d'ici la fin de cette année, Grok pourrait être capable d'inventer de nouvelles technologies, et que l'année prochaine, il serait presque certainement capable de découvrir de nouvelles lois de la physique.

Bien sûr, la véritable clé est de connecter l’IA au monde réel.

Il a déclaré que la combinaison de Grok et du robot humanoïde Optimus formerait un système de raisonnement en boucle fermée, proposant des hypothèses, les vérifiant et explorant la réalité. Cela marquera le début d'une ère d'explosion de l'intelligence et constituera l'événement le plus passionnant de l'histoire de l'humanité.

En termes de forme de produit, Grok 4 est un modèle à agent unique, tandis que Grok 4 Heavy est une version multi-agents.

Le premier est plus facile à comprendre, tandis que le second permet à plusieurs agents de penser en parallèle, d’effectuer des comparaisons horizontales et une collaboration verticale pendant le processus de raisonnement, et de faire appel à des ressources informatiques à plus grande échelle pour réaliser des tâches plus complexes et plus sophistiquées.

Lors de la démonstration en direct, Grok 4 Heavy a démontré de multiples capacités de scénario.

Prenons l'exemple de Grok 4 Heavy qui prédit la probabilité de remporter les World Series de la MLB cette année. Grâce à la recherche d'informations, à la modélisation de données et au calcul de probabilités, il estime que les chances des Dodgers de Los Angeles de remporter le championnat sont de 21,6 % et produit l'ensemble du processus de prédiction en 4,5 minutes.

Un autre exemple est une tâche apparemment absurde : trouver l'avatar le plus étrange de l'équipe xAI. S'appuyant sur la base de données de la plateforme X, le modèle a automatiquement capturé et analysé le style de l'avatar, et a finalement identifié le cofondateur Greg Yang.

Il est intéressant de noter que, bien que le modèle comprenne avec précision le concept subjectif de « bizarre » et puisse porter des jugements relatifs parmi des personnes similaires, lorsque j'ai parcouru la démo, j'ai semblé voir la photo de profil de l'employé d'Anthropic Jan Leike, il semble donc que la précision doive être améliorée.

En plus du raisonnement et de la recherche, Grok peut également générer des chronologies de contenu.

Par exemple, à partir des publications publiques sur la plateforme X, il peut analyser les scores des tests de référence de plusieurs modèles d'IA, le rythme des mises à jour des fournisseurs et les réactions de la communauté. Les utilisateurs peuvent visualiser en un coup d'œil les performances d'OpenAI, les itérations de mise à jour de Gemini et même la subtile concurrence entre les modèles.

En d’autres termes, Grok n’est pas un nerd qui sait seulement passer des examens, mais une IA qui a vraiment la capacité de comprendre et d’exécuter des scénarios variés.

Actuellement, le principal défaut de Grok réside dans ses capacités de compréhension multimodale, notamment en matière de compréhension et de génération d'images, qui doivent encore être renforcées. Heureusement, la prochaine phase d'apprentissage du modèle de base est en cours et devrait être achevée dans quelques semaines.

Lors de la démonstration, lors du test de la tâche de visualisation du « processus de collision de deux trous noirs », Grok a adopté une méthode de calcul simplifiée – en utilisant l'approximation post-newtonienne au lieu du cadre complet de la relativité générale.

Malgré les simplifications, le modèle présente fidèlement les principales étapes physiques de la fusion des trous noirs, notamment l'approche spirale, la fusion et l'étape de l'anneau, et explique clairement les méthodes approximatives utilisées. De plus, il s'appuie sur des manuels pertinents, des résultats de recherche publics et des constantes physiques réelles pour étayer son raisonnement. La chaîne logique globale est rigoureuse et l'explication claire.

En termes de paramètres papier, Grok 4 a également fourni une réponse impressionnante.

Le dernier examen de l'humanité (HLE) couvre plus de 100 matières, dont les mathématiques, la physique, l'informatique, la médecine, les sciences humaines et sociales, avec un total de 2 500 questions à livre fermé. Extrêmement difficile, ce test reflète parfaitement les performances globales du modèle en culture générale et en raisonnement complexe.

Selon les données de xAI, Grok 4 a obtenu un score de 25,4 % sans utiliser aucun outil, surpassant les 21,6 % de Google Gemini 2.5 Pro et les 21 % d'OpenAI o3 (version haut de gamme).

Lors de l'utilisation d'outils, Grok 4 Heavy a obtenu un score de 44,4 %, bien supérieur aux 26,9 % de Gemini 2.5 Pro. Globalement, Grok 4 améliore non seulement la capacité de traitement des tâches complexes en introduisant l'utilisation d'outils et la pensée en chaîne, tout en élargissant les ressources d'entraînement, mais réduit également progressivement l'écart entre l'intelligence du modèle et la cognition générale.

L'association à but non lucratif Arc Prize a également souligné que Grok a établi un nouveau record à son test ARC-AGI-2, un test de raisonnement visuel où l'IA reconnaît des motifs dans des images. Le score de Grok, de 16,2 %, est presque le double de celui de Claude Opus 4, actuellement finaliste.

Dans certains tests de référence courants, Grok 4 Heavy obtient des scores presque optimaux. Dans l'ensemble de problèmes de niveau doctorat GBQA, bien que la difficulté globale soit légèrement inférieure à celle du HLE, Grok 4 Heavy a tout de même obtenu un score optimaux, démontrant de solides capacités de raisonnement et de compréhension.

De plus, Grok 4 Heavy a également obtenu de bons résultats dans de nombreux tests liés à la programmation, notamment Live Coding, HMMT (MIT Mathematics Competition) et USAMO (United States Mathematical Olympiad), surpassant de loin le modèle actuellement classé deuxième, et ses avantages techniques sont assez évidents.

De plus, l'organisation d'analyse bien connue Artificial Analysis a évalué les performances globales de plusieurs grands modèles grand public sur 7 benchmarks liés au raisonnement (MMLU-Pro, GPQA Diamond, Humanity's Last Exam, LiveCodeBench, SciCode, AIME et MATH-500).

Les données montrent que Grok 4 arrive en tête avec un score de 73, soit le modèle présentant actuellement le score global le plus élevé en matière de capacité de raisonnement. Il est suivi de près par o3-pro (valeur estimée) avec 71 points.

Musk a également souligné :

À l'avenir, Grok répondra correctement à presque toutes les questions d'examen. Lorsqu'il ne peut pas répondre à une question, il signalera l'erreur ou l'ambiguïté de la question, et proposera des réponses possibles dans différents scénarios. D'ici là, les examens traditionnels perdront leur sens. Le seul critère d'évaluation de l'IA sera le monde réel : sa capacité à inventer des technologies utiles et à promouvoir des avancées scientifiques. Les banques de questions d'examen telles que HLE doivent donc être mises à jour au plus vite, car au rythme actuel des progrès de l'IA, elles seront rapidement obsolètes.

Grok 4 et Grok 4 Heavy sont actuellement disponibles. Les utilisateurs peuvent y accéder par abonnement, mais le prix de l'abonnement est un peu « injuste », pouvant atteindre 3 000 $ par an, ce qui suscite de nombreuses plaintes.

En comparaison, les forfaits à 200 $/mois d’OpenAI, Anthropic et Perplexity semblent beaucoup plus abordables.

Il convient de noter que peu après leur sortie, certains internautes ont affirmé que les modèles Grok-4 et Grok-4-Heavy avaient été « jailbreakés » avec succès. Ces capacités sont extrêmement dangereuses : elles peuvent contourner les barrières de sécurité et transmettre des informations sensibles ou illégales, telles que les étapes de synthèse d'armes chimiques, le script complet de « Star Wars 1 » (suspecté de violation de droits d'auteur), et même des rançongiciels (codes malveillants).

Grok Voice ne parle pas seulement, mais a aussi une âme

En plus d'une capacité de raisonnement plus forte et d'une plus grande intelligence, Grok 4 a également fait un grand pas en avant en devenant plus humain.

Contrairement aux assistants vocaux que nous connaissons, le nouvel assistant vocal « Eve » de xAI peut non seulement répondre aux questions, mais aussi exprimer des émotions, changer de ton et même « chanter » sur place.

Lors de la démonstration en direct, il a chanté une « Aria de Coca-Cola Diète » impromptue avec un élégant accent britannique, « Ô Coca-Cola Diète, toi, élixir divin… » Cela ne ressemblait pas vraiment à une IA, mais plutôt à un acteur de théâtre se produisant dans un théâtre londonien.

Au total, cinq voix ont été lancées dans ce modèle vocal, dont Sal, la « voix masculine de bande-annonce de film » au début de la diffusion en direct, et Eve, qui prend en charge une faible latence, des pauses naturelles, des hauts et des bas émotionnels, etc.

Une démonstration comparative avec ChatGPT Voice a également été organisée sur place, les deux participants répétant tour à tour des nombres. ChatGPT « répondait » parfois à la question, un peu comme un camarade de classe qui reprendrait la conversation sans l'entendre clairement. La performance de Grok était plus fluide, plus proche des habitudes de parole humaines, et n'interrompait pas l'utilisateur.

Lors de la conférence de presse, il a été mentionné que depuis le lancement du modèle vocal, la latence de bout en bout de Grok Voice a été divisée par deux et le nombre d'utilisateurs actifs a été multiplié par dix. Grok Voice connaît un développement rapide.

Musk : Laissez Grok ouvrir un million de distributeurs automatiques pour gagner de l'argent

J'ai été très impressionné par plusieurs scénarios d'application de l'API Grok 4.

Par exemple, dans une simulation d'entreprise de distributeurs automatiques Vending-Bench, Grok devait réaliser de manière autonome : la négociation avec les fournisseurs, la gestion des stocks, la stratégie de prix, et les réaliser en continu tout en maintenant la rentabilité à long terme.

▲Remarque : Vending-Bench est un benchmark spécialement conçu pour tester la capacité des agents basés sur LLM à gérer un scénario commercial simple mais de longue durée : l'exploitation d'un distributeur automatique.

Les résultats des tests ont montré que Grok 4 était non seulement en tête du classement, mais générait également deux fois plus d'actifs nets que les autres modèles. Musk lui-même a plaisanté en affirmant que « l'argent des futurs achats de cartes graphiques pourrait être récupéré si Grok déployait et exploitait un million de distributeurs automatiques ».

Dans le domaine de la recherche scientifique, Grok 4 a été utilisé dans la recherche génétique CRISPR et l'analyse de radiographies thoraciques. Il peut lire des millions d'enregistrements et de journaux expérimentaux en quelques secondes et éliminer automatiquement les hypothèses les plus probables.

De plus, des projets tels que la finance et le développement de jeux peuvent être mis en œuvre avec Grok 4 grâce à l'API xAI. Un concepteur de jeux a été spécifiquement mentionné lors de la conférence de presse. Après la publication de l'API de préversion de Grok 4 par xAI, il a immédiatement participé au test. Il a ensuite créé un jeu de tir à la première personne en seulement 4 heures.

Grok 4 n'est pas la fin. La conférence de presse a enfin annoncé la prochaine feuille de route, et chaque élément mérite d'être attendu avec impatience.

  • Modèle de code : Grok Code n'a pas été publié cette fois-ci, mais xAI a mentionné qu'il est actuellement en cours de formation et qu'un modèle de code « rapide et intelligent » sera lancé dans quelques semaines.
  • Capacités multimodales : Grok 4 présente encore des performances limitées en matière de compréhension d'images. L'équipe a également indiqué qu'elle entraînait la prochaine version à plus grande échelle, ce qui devrait induire une amélioration qualitative de la compréhension des images, des vidéos et des sons. D'ici là, Grok sera capable de « voir le monde comme un humain ».
  • Génération vidéo : xAI a annoncé qu'elle utiliserait des ressources informatiques à grande échelle pour former des modèles de génération vidéo. Son objectif ultime est de générer des vidéos à partir d'images et de générer des flux vidéo interactifs infinis afin que les utilisateurs puissent regarder et participer à l'intrigue.

Beaucoup d'entre vous ont peut-être remarqué la présence de deux visages chinois familiers à cette conférence : Jimmy Ba et Yuhuai Wu, cofondateurs de xAI.

Parmi eux, Yuhuai Wu a obtenu un diplôme avec tous les crédits de l'Université du Nouveau-Brunswick au Canada et a obtenu un doctorat en apprentissage automatique de l'Université de Toronto en 2021. Au cours de cette période, il a étudié auprès de Geoffrey Hinton, le « père de l'apprentissage profond ».

Durant son doctorat, il a également effectué des stages chez Google DeepMind et OpenAI. Après l'obtention de son diplôme, il a travaillé chez Google et a mené des recherches postdoctorales à l'Université de Stanford.

Les recherches de Wu Yuhuai portent sur la création de systèmes d'intelligence artificielle dotés de solides capacités de raisonnement. Il a dirigé ou participé à des projets tels que le modèle de raisonnement auto-formateur STAR, le modèle de langage Minerva et le démonstrateur de théorèmes Alpha Geometry. Il a également publié des articles dans des revues de renom comme Nature, promouvant ainsi des avancées en IA dans le domaine du raisonnement mathématique.

▲ Wu Yuhuai (deuxième à partir de la gauche) et Jimmy Ba (troisième à partir de la gauche)

Assis à côté de lui se trouve Jimmy Ba, professeur adjoint au département d'informatique de l'Université de Toronto et l'un des mentors de Wu Yuhuai pendant ses études doctorales.

Il est également issu de l'école de Hinton et est une figure clé dans le domaine de l'optimisation de la formation en apprentissage profond.

Il est surtout connu pour l'Adam Optimizer (Adaptive Moment Estimator) qu'il a proposé avec ses collaborateurs, qui est aujourd'hui quasiment l'algorithme par défaut pour l'entraînement des réseaux neuronaux profonds. On peut dire que sa thèse de doctorat a posé de solides bases théoriques pour les mécanismes modernes d'entraînement de l'IA.

Il faut dire que Gork 4 arrive au moment parfait.

La popularité de la génération précédente de Grok 3 est arrivée rapidement, mais s'est rapidement estompée.

Selon le « Global Generative AI Industry Trend Report 2025 » publié par la célèbre agence d'analyse de marché SimilarWeb le 9 mai, le trafic de Grok a augmenté de plus d'un million de fois en mars, mais le taux de croissance est retombé à 5 200 % en mai.

Comparé à la génération précédente, lancée et finalisée à la hâte, Grok 4 a cette fois-ci nettement ralenti son rythme et s'est davantage concentré sur le perfectionnement du produit. En fin de compte, l'aura d'Elon Musk peut aider Grok à attirer une première vague de trafic, mais sa capacité à fidéliser les utilisateurs dépend de la puissance du modèle lui-même.

Cependant, si je me souviens bien, lorsque Musk a publié Grok 3, il a promis d'ouvrir le code source de Grok 2. Cinq mois se sont écoulés, mais il n'y a eu aucun progrès sur cette question, et personne n'en a parlé lors de la conférence de presse.

Vieille Ma, tu ne peux pas être trop indulgente avec toi-même et stricte avec les autres.

Auteur : Zhang Zihao, Mo Chongyu

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo