J’ai testé les affirmations d’OpenAI concernant GPT-5 — voici ce qui s’est passé

OpenAI a récemment lancé GPT-5 , son dernier modèle de langage à grande échelle, ainsi qu'une mise à jour majeure de ChatGPT . Si cette nouvelle mise à jour présente de nombreux avantages, les affirmations sont une chose, la réalité en est une autre.

GPT-5 serait plus rapide, moins sujet aux hallucinations et aux comportements obséquieux, et capable de choisir instantanément entre des réponses rapides et une réflexion plus approfondie. Combien des affirmations d'OpenAI sont réellement visibles lors de l'utilisation du chatbot ? Découvrons-le.

Affirmation n°1 : ChatGPT suit désormais mieux les instructions

Mon principal problème avec ChatGPT, et l'une des raisons pour lesquelles je me suis récemment désabonné , est qu'il est souvent assez difficile de suivre les instructions de base. Certes, on peut le manipuler à la perfection et obtenir les résultats escomptés (parfois), mais même des instructions plus ou moins élaborées ne produisent souvent pas les résultats escomptés.

OpenAI affirme avoir amélioré le suivi des instructions avec la sortie de GPT-5. À cela, je réponds : je ne le vois pas encore.

Heureusement pour moi, le jour même où j'ai commencé à écrire cet article, j'ai eu une interaction pertinente avec ChatGPT qui confirme mon point de vue. Ce n'est pas le seul cas, cependant, et j'ai généralement remarqué que plus une conversation dure, plus ChatGPT oublie ce qu'on lui demande.

Dans l'exemple d'aujourd'hui, j'ai testé la capacité de ChatGPT à récupérer des informations simples et à les présenter au format requis. Je lui ai demandé les spécifications de la RTX 5060 Ti, une carte graphique de jeu récente. Le chaos s'est alors installé.

Pour que mon message soit encore plus efficace, j'ai montré à ChatGPT le format exact dans lequel je souhaitais transmettre mes informations en partageant les spécifications d'un autre GPU. Elles incluaient des éléments tels que le nœud de processus exact, la génération des cœurs de ray tracing et des TOPS. Pour faire court, c'était assez précis. Au départ, l'IA m'a indiqué que la RTX 5060 Ti n'existait pas encore, ce à quoi je m'attendais vu ses connaissances limitées. Je lui ai conseillé de vérifier en ligne.

J'ai obtenu des résultats plutôt sommaires. ChatGPT a omis au moins quatre éléments que j'avais demandés et m'a fourni des informations erronées pour l'une des spécifications. Je lui ai ensuite demandé de préciser quelques éléments. Il m'a renvoyé exactement la même liste, tout en prétendant avoir satisfait ma demande. La même chose s'est produite à la troisième tentative. Vous pouvez le constater dans la capture d'écran ci-dessus : ChatGPT prétend avoir inclus la génération de TOPS et de TFLOPS dans la liste, ce qui n'est manifestement pas le cas.

Finalement, un peu frustré, j'ai copié une capture d'écran du site officiel de Nvidia pour montrer ce que je cherchais. Il y avait encore quelques erreurs.

Mon message initial était assez précis. Je sais qu'il vaut mieux ne pas parler à une IA comme à une personne, alors je lui ai donné environ 150 mots d'instructions. Il m'a fallu encore plusieurs messages pour obtenir un résultat proche de mes attentes.

Verdict : Il pourrait encore y avoir quelques améliorations.

Affirmation n°2 : ChatGPT est moins obséquieux

ChatGPT était un véritable « oui-oui » dans ses versions précédentes. Il donnait souvent raison aux utilisateurs alors que ce n'était pas nécessaire, les plongeant toujours plus profondément dans l'hallucination.

Pour les utilisateurs qui ne sont pas familiers avec le fonctionnement interne de l’IA, cela pourrait être à la limite du danger – ou, en fait, extrêmement dangereux.

Des chercheurs ont récemment réalisé un test à grande échelle de ChatGPT, en se faisant passer pour de jeunes adolescents. En quelques minutes, suite à de simples interactions, l'IA a donné à ces « adolescents » des conseils sur l'automutilation, la planification du suicide et la toxicomanie. Cela montre que les comportements obséquieux constituent un problème majeur pour ChatGPT, et OpenAI affirme en avoir en partie réduit la portée avec la sortie de GPT-5.

Je n'ai jamais testé ChatGPT à ce point, mais j'ai constaté qu'il avait tendance à vous donner raison, quoi que vous disiez. Il percevait les signaux subtils de la conversation et les transformait en évidence. Il vous encourageait même à des moments où il n'aurait probablement pas dû le faire.

À cet égard, je dois dire que ChatGPT a complètement changé de personnalité, pour le meilleur ou pour le pire. Les réponses sont désormais trop sèches, peu engageantes et peu encourageantes.

De nombreux utilisateurs déplorent ce changement, certains utilisateurs de Reddit affirmant avoir « perdu leur seul ami du jour au lendemain ». Il est vrai que l'IA, auparavant ultra-sympa, est désormais plutôt directe et sèche, et les réponses sont souvent courtes comparées aux mini-essais infestés d'émojis qu'elle proposait régulièrement pendant sa phase GPT-4o.

Verdict : Certainement moins obséquieux. En revanche, c'est aussi terriblement ennuyeux.

Affirmation n° 3 : GPT-5 est plus précis en termes de précision factuelle

Le manque flagrant d'exactitude factuelle a été une autre raison majeure pour laquelle j'ai décidé d'arrêter de payer pour ChatGPT. Certains jours, j'avais l'impression que la moitié des messages que j'utilisais provoquaient des hallucinations. Et tout cela ne peut pas être dû à mon manque de précision, car j'ai passé des centaines d'heures à apprendre à bien interroger l'IA : je sais poser les bonnes questions.

Au fil du temps, j'ai appris à ne poser des questions que sur des sujets dont j'avais déjà une vague idée. Pour l'expérience d'aujourd'hui, j'ai posé des questions sur les spécifications du GPU. Quatre requêtes sur cinq ont donné des informations erronées, même si elles sont toutes facilement disponibles en ligne.

Ensuite, j'ai essayé de me baser sur des faits historiques. J'ai lu quelques articles intéressants sur le voyage du Hindenburg, un dirigeable des années 1930 capable de transporter des passagers d'Europe aux États-Unis en un temps record (60 heures). J'ai demandé quel était son itinéraire exact, le nombre de passagers qu'il pouvait transporter et les raisons de sa disparition. J'ai vérifié les réponses avec des sources historiques.

Il y avait une erreur sur l'itinéraire : il mentionnait une escale au Canada, alors que ce n'était pas le cas ; le dirigeable n'avait fait que survoler le Canada. ChatGPT m'a également fourni des informations inexactes sur la cause exacte de l'incendie ayant conduit à son crash, mais ce n'était pas une erreur majeure.

À titre de comparaison, j'ai également interrogé Gemini, qui m'a répondu qu'il ne pouvait pas effectuer cette tâche à ma place. Eh bien, des deux, GPT-5 a fait un meilleur travail, mais honnêtement, il ne devrait pas y avoir d'inexactitudes factuelles dans des données vieilles d'un siècle.

Verdict : Pas parfait, mais pas terrible non plus.

GPT-5 est-il meilleur que GPT-4o ?

Si vous m'aviez demandé si je préférais GPT-5 à GPT-4o, j'aurais eu du mal à vous répondre. La réponse la plus proche qui me vienne à l'esprit est que je n'étais emballé par aucun des deux, mais, honnêtement, aucun des deux n'est vraiment mauvais.

Nous sommes encore en pleine révolution de l'IA. Chaque nouveau modèle apporte des améliorations, mais il est peu probable que nous assistions à des avancées majeures à chaque nouvelle itération.

Cette fois-ci, j'ai l'impression qu'OpenAI a choisi de s'attaquer à des problèmes attendus depuis longtemps plutôt que d'introduire une fonctionnalité unique susceptible de faire fureur. GPT-5 semble davantage une amélioration de la qualité de vie qu'autre chose, même si je ne l'ai pas testé pour des tâches comme le codage, où il est présenté comme bien meilleur.

Les trois éléments que j'ai testés ci-dessus figurent parmi ceux qui m'ont le plus agacé dans les modèles précédents. J'aimerais dire que GPT-5 est bien meilleur à cet égard, mais ce n'est pas encore le cas. Je vais néanmoins continuer à tester le chatbot, car une fuite récente m'indique qu'il pourrait y avoir eu plus de changements de personnalité que prévu.