Le Grok-3 de xAI est impressionnant, mais il doit faire beaucoup plus pour me convaincre

18 février 2025 Hibou Gourou

xAI, dirigé par Elon Musk, a annoncé son dernier modèle d'IA, Grok-3 , via une diffusion en direct. Dès le départ, il était évident que l’entreprise souhaitait combler rapidement toutes les lacunes pratiques susceptibles de rendre son chatbot plus accessible à un utilisateur moyen, plutôt que de simplement vendre de la rhétorique sur l’éveil et la compréhension de l’univers.

La société publiera deux versions de son dernier modèle d'IA, à savoir. Grok-3 et Grok-3 mini. Ce dernier est formé pour des scénarios nécessitant peu de calcul, tandis que le premier offrira l'ensemble complet des avantages de Grok-3 tels que DeepSearch, Think et Big Brain.

De quoi s'agit-il

Page d'accueil du chat Grok 3. — Nadeem Sarwar / Tendances numériques

Alors que Musk parlait de toutes les nouvelles fonctionnalités de Grok-3 aux côtés d'experts xAI, il était évident que cette version ne visait pas seulement à établir de nouveaux critères de performance, mais également à rattraper toutes les tendances chaudes qui définiront le paysage de l'IA en 2025.

Selon les références partagées par la société, Grok-3 et même Grok-3 mini ont obtenu de meilleurs résultats que les modèles GPT-4o, Gemini, Claude et Deep Seek d'OpenAI dans des tâches telles que le codage, les mathématiques et la résolution de problèmes scientifiques.

Dans le classement Chatbot Arena (LMSYS), une première version de Grok-3 a atteint un sommet de 1 400 points, devant Gemini 2.0 Flash Thinking, DeepSeek et bien d'autres. La société a développé Grok-3 à un rythme impressionnant, et atteindre ces performances est tout un exploit, même si elle est relativement nouvelle face à Google ou à OpenAI.

Comparaison de référence Grok-3 AI. — xAI

Cependant, le plus grand défi sera de le généraliser, notamment du point de vue de l’accès. Grok-3 sera initialement disponible pour les abonnés X Premium+ dans le cadre d'un programme d'accès anticipé. Actuellement le niveau le plus élevé de l'abonnement X, Premium+ est au prix de 22 $ par mois et de 229 $ pour le forfait annuel.

Les utilisateurs éligibles auront accès aux fonctionnalités de Grok-3 telles que le raisonnement, DeepSearch, des limites d'utilisation plus élevées et un accès anticipé à de nouveaux outils. La société lance également un service d'abonnement distinct appelé SuperGrok qui offre un accès prioritaire à Grok-3 et des limites de génération d'images plus élevées.

Introduction de SuperGrok par l'équipe xAI. — xAI

Cet abonnement sera limité à l'application mobile Grok et au nouveau site Web Grok.com. Musk affirme toutefois que les fonctionnalités les plus récentes et les plus avancées seront proposées via le site Web.

"Il s'agit d'une sorte de version bêta, vous devez donc vous attendre à quelques imperfections au début, mais nous nous améliorerons rapidement", a déclaré Musk lors du livestream, ajoutant que les utilisateurs peuvent s'attendre à des améliorations chaque jour. Il serait intéressant de voir comment xAI comble le manque d’intérêt d’un passionné de chatbot moyen qui utilise un téléphone tout en envoyant simultanément un argumentaire juteux à des entreprises clientes bien rémunérées.

À l'écoute des tendances

xAI semble faire beaucoup avec Grok-3, non seulement en termes de capacités améliorées, mais également de parité des fonctionnalités. L'un des éléments marquants de Grok-3 est l'amélioration des capacités de raisonnement et de réflexion, qui semble être la nouvelle tendance en vogue dans le monde des modèles de langage.

Prenez par exemple le mode Think du Grok-3, qui est un rival direct des modèles de la série o d'OpenAI. De tels modèles d'IA sont conçus pour passer plus de temps à réfléchir et à analyser les requêtes des utilisateurs avant de fournir la réponse.

Les utilisateurs peuvent voir la chaîne de pensées en temps réel et les avantages, selon les adoptants, sont des performances améliorées dans les requêtes liées aux sciences, aux mathématiques et au codage. xAI comble ce gouffre non seulement avec le mode Think, mais aussi avec un outil Big Brain distinct pour Grok-3 qui renforcera ses capacités de calcul pour des scénarios plus avancés et complexes.

Réponse de réflexion profonde de Grok 3. — xAI

Google n'est pas loin derrière avec sa gamme Gemini. La société a récemment lancé la série Gemini 2.0 de modèles d'IA , qui comprend Gemini 2.0 Flash Thinking Experimental et une itération distincte axée sur l'application qui donne la priorité aux informations extraites de YouTube, de Maps et de la recherche Google.

DeepSeek , le chatbot IA open source de Chine qui a récemment perturbé Wall Street, propose également un produit de réflexion et de raisonnement appelé DeepThink. Même si les réponses sont censurées , la performance est assez impressionnante.

xAI poursuit également la formule d'agent IA avec Grok-3, même si elle a beaucoup de chemin à parcourir, surtout par rapport à OpenAI et Google. À cette fin, la société lance son premier produit agent construit sur Grok-3, appelé DeepSearch.

Il fonctionne plus ou moins de la même manière que Deep Research dans Google Gemini et les produits concurrents du même nom de Perplexity et OpenAI. Il effectue une recherche sur le Web, compile un rapport complet et sert également de citations à toutes les sources d'où il a extrait des informations.

xAI est en retard dans la course, mais le prix pourrait être un obstacle en matière d'attrait de masse. Perplexity proposera gratuitement un nombre limité de requêtes Deep Research, tandis que Google propose un forfait plus généreux avec Gemini Deep Research à 20 $ pour les abonnés Gemini Advanced.

Deep Research (ou DeepSearch pour Grok-3) est un processus extrêmement gourmand en calcul, il est donc logique qu'il s'agisse d'un avantage premium. Mais en donner un avant-goût aux clients, même avec un nombre limité de requêtes, s'accompagne de plus grandes chances de gagner de nouveaux abonnés, une stratégie que suivent Perplexity et OpenAI.

Une démonstration de Gemini Live sur un Google Pixel 9. — Gemini Live par Google. Joe Maring / Tendances numériques

Musk a également mentionné qu'un mode d'interaction vocale arriverait également sur Grok et qu'il serait lancé dans environ une semaine. L’objectif est de fournir une méthode alternative de conversation avec Grok, une méthode plus naturelle.

ChatGPT d'OpenAI propose depuis un certain temps quelque chose appelé Mode vocal, et une fonctionnalité similaire appeléeGemini Live est également disponible pour les utilisateurs de Google Gemini .

xAI n'a pas fourni beaucoup de détails sur le mode vocal de Grok-3, mais a confirmé qu'il comportera une mémoire conversationnelle afin de pouvoir mémoriser les détails des interactions précédentes. "C'est l'une des meilleures expériences de Grok", a déclaré Musk lors du livestream.

Trouver un attrait de masse est le défi

Deep Research n’est pas la seule implémentation agentique de chatbots IA, et c’est là que xAI est loin derrière. OpenAI a récemment introduit Operator , un agent d'IA capable d'effectuer des tâches Web complexes pour le compte des utilisateurs en prenant essentiellement le contrôle des tâches de navigation Web.

Il peut effectuer des tâches telles que faire des courses, faire des réservations de restaurant et effectuer des tâches liées aux voyages, grâce au cadre sous-jacent d'agent utilisant un ordinateur (CUA). Plus important encore, OpenAI a déjà conclu des accords avec des sociétés telles que DoorDash, InstaCart, Uber et eBay pour faire de l'opérateur une vitrine impressionnante de capacités agents pratiques.

Ensuite, il y a le système de plug-ins ChatGPT , qui rend le chatbot beaucoup plus fonctionnel en s'intégrant à des plateformes telles que Zapier, Expedia, Klarna, Slack et Shopify, entre autres. Ils font de ChatGPT un produit bien plus attrayant pour les entreprises que Grok-3.

Google, quant à lui, exploite son vaste portefeuille de produits et d'applications que les gens utilisent quotidiennement. L'intégration approfondie au niveau du système avec les applications (via des extensions) sur Android et la disponibilité des fonctionnalités multimodales Gemini dans les produits Workspace tels que Gmail et Docs lui confèrent un avantage fonctionnel considérable.

DeepSeek, en revanche, a déjà été adopté par des marques comme Honor . Apple a également déployé une pile Apple Intelligence basée sur ChatGPT sur des millions d'iPhones et de Mac, et asigné un accord avec Alibaba pour offrir ces fonctionnalités en Chine.

xAI n’a pas encore trouvé de preneur pour Grok. C'est le plus grand défi pour xAI à l'heure actuelle, et il serait intéressant de voir quelles marques il peut intégrer pour pousser Grok-3, avec toutes ses cloches et sifflets, dans le grand public.