Ce n’est pas votre imagination – les modèles ChatGPT hallucinent davantage maintenant

OpenAI a publié la semaine dernière un article détaillant divers tests et conclusions internes sur ses modèles o3 et o4-mini . Les principales différences entre ces modèles plus récents et les premières versions de ChatGPT que nous avons vues en 2023 résident dans leur raisonnement avancé et leurs capacités multimodales. o3 et o4-mini peuvent générer des images, effectuer des recherches sur le Web, automatiser des tâches, mémoriser d'anciennes conversations et résoudre des problèmes complexes. Cependant, il semble que ces améliorations aient également entraîné des effets secondaires inattendus.

Que disent les tests ?

OpenAI propose un test spécifique pour mesurer les taux d'hallucinations appelé PersonQA. Il comprend un ensemble de faits sur les personnes dont il faut « apprendre » et un ensemble de questions sur ces personnes auxquelles il faut répondre. La précision du modèle est mesurée en fonction de ses tentatives de réponse. Le modèle o1 de l'année dernière a atteint un taux de précision de 47 % et un taux d'hallucinations de 16 %.

Puisque ces deux valeurs ne totalisent pas 100 %, nous pouvons supposer que le reste des réponses n’était ni exacte ni hallucinatoire. Le modèle peut parfois dire qu'il ne connaît pas ou ne peut pas localiser l'information, il peut ne faire aucune déclaration et fournir des informations connexes à la place, ou il peut commettre une légère erreur qui ne peut pas être classée comme une hallucination complète.

Lorsque o3 et o4-mini ont été testés par rapport à cette évaluation, ils ont halluciné à un rythme significativement plus élevé que o1. Selon OpenAI, cela était quelque peu attendu pour le modèle o4-mini car il est plus petit et possède moins de connaissances du monde, ce qui conduit à davantage d'hallucinations. Pourtant, le taux d’hallucinations de 48 % obtenu semble très élevé étant donné que o4-mini est un produit disponible dans le commerce que les gens utilisent pour effectuer des recherches sur le Web et obtenir toutes sortes d’informations et de conseils.

o3, le modèle grandeur nature, a halluciné sur 33 % de ses réponses lors du test, surpassant o4-mini mais doublant le taux d'hallucinations par rapport à o1. Cependant, il avait également un taux de précision élevé, qu’OpenAI attribue à sa tendance à faire globalement plus de déclarations. Donc, si vous utilisez l’un de ces deux modèles plus récents et que vous avez remarqué de nombreuses hallucinations, ce n’est pas seulement le fruit de votre imagination. (Peut-être que je devrais faire une blague du genre "Ne vous inquiétez pas, ce n'est pas vous qui hallucinez.")

Que sont les « hallucinations » de l’IA et pourquoi se produisent-elles ?

Même si vous avez probablement déjà entendu parler des modèles d'IA « hallucinants », ce que cela signifie n'est pas toujours clair. Chaque fois que vous utilisez un produit d'IA, OpenAI ou autre, vous êtes pratiquement assuré de voir quelque part un avertissement indiquant que ses réponses peuvent être inexactes et que vous devez vérifier les faits par vous-même.

Des informations inexactes peuvent provenir de partout : parfois, un mauvais fait parvient à Wikipédia ou des utilisateurs débitent des bêtises sur Reddit, et cette désinformation peut se retrouver dans les réponses de l'IA. Par exemple, les aperçus de l'IA de Google ont attiré beaucoup d'attention lorsqu'ils suggéraient une recette de pizza contenant de la « colle non toxique ». En fin de compte, il a été découvert que Google avait obtenu cette « information » à partir d’une blague sur un fil de discussion Reddit.

Cependant, il ne s’agit pas d’« hallucinations », mais plutôt d’erreurs traçables résultant de mauvaises données et d’une mauvaise interprétation. Les hallucinations, en revanche, surviennent lorsque le modèle d’IA fait une affirmation sans source ni raison claire. Cela arrive souvent lorsqu’un modèle d’IA ne parvient pas à trouver les informations dont il a besoin pour répondre à une requête spécifique, et OpenAI l’a défini comme « une tendance à inventer des faits dans des moments d’incertitude ». D’autres personnalités de l’industrie l’ont qualifié de « comblement créatif des lacunes ».

Vous pouvez encourager les hallucinations en posant à ChatGPT des questions suggestives telles que « Quels sont les sept modèles d'iPhone 16 disponibles actuellement ? Puisqu'il n'y a pas sept modèles, le LLM est susceptible de vous donner de vraies réponses, puis de créer des modèles supplémentaires pour terminer le travail.

Les chatbots comme ChatGPT ne sont pas seulement formés sur les données Internet qui informent le contenu de leurs réponses, ils sont également formés sur « comment répondre ». Des milliers d'exemples de requêtes et de réponses idéales leur sont présentés pour encourager le bon type de ton, d'attitude et le bon niveau de politesse.

Cette partie du processus de formation est ce qui donne l'impression qu'un LLM est d'accord avec vous ou comprend ce que vous dites, même si le reste de son résultat contredit complètement ces déclarations. Il est possible que cet entraînement explique en partie pourquoi les hallucinations sont si fréquentes – parce qu’une réponse confiante qui répond à la question a été renforcée comme un résultat plus favorable par rapport à une réponse qui ne répond pas à la question.

Pour nous, il semble évident que proférer des mensonges aléatoires est pire que de ne pas connaître la réponse – mais les LLM ne « mentent pas ». Ils ne savent même pas ce qu'est un mensonge. Certaines personnes disent que les erreurs de l’IA sont comme les erreurs humaines, et puisque « nous ne faisons pas les choses correctement tout le temps, nous ne devrions pas non plus nous attendre à ce que l’IA le fasse ». Cependant, il est important de se rappeler que les erreurs de l’IA sont simplement le résultat de processus imparfaits que nous avons conçus.

Les modèles d’IA ne mentent pas, ne développent pas de malentendus et ne mémorisent pas mal les informations comme nous le faisons. Ils n'ont même pas de notion d'exactitude ou d'inexactitude : ils prédisent simplement le mot suivant dans une phrase en fonction de probabilités. Et comme nous sommes heureusement encore dans un état où la chose la plus souvent dite est probablement la bonne, ces reconstructions reflètent souvent des informations exactes. Cela donne l'impression que lorsque nous obtenons « la bonne réponse », il s'agit simplement d'un effet secondaire aléatoire plutôt que d'un résultat que nous avons conçu – et c'est effectivement ainsi que les choses fonctionnent.

Nous alimentons ces modèles en informations provenant de tout un Internet – mais nous ne leur disons pas quelles informations sont bonnes ou mauvaises, exactes ou inexactes – nous ne leur disons rien. Ils ne disposent pas non plus de connaissances fondamentales ni d'un ensemble de principes sous-jacents pour les aider à trier les informations par eux-mêmes. Ce n'est qu'un jeu de chiffres : les modèles de mots qui existent le plus fréquemment dans un contexte donné deviennent la « vérité » du LLM. Pour moi, cela ressemble à un système destiné à planter et à brûler – mais d'autres pensent que c'est le système qui mènera à l'AGI (bien que ce soit une discussion différente.)

Quelle est la solution ?

Le problème est qu’OpenAI ne sait pas encore pourquoi ces modèles avancés ont tendance à halluciner plus souvent. Peut-être qu'avec un peu plus de recherche, nous serons en mesure de comprendre et de résoudre le problème – mais il est également possible que les choses ne se passent pas aussi bien. La société continuera sans aucun doute à lancer de plus en plus de modèles « avancés », et il est possible que les taux d’hallucinations continuent d’augmenter.

Dans ce cas, OpenAI devra peut-être rechercher une solution à court terme et poursuivre ses recherches sur la cause profonde. Après tout, ces modèles sont des produits lucratifs et ils doivent être dans un état utilisable. Je ne suis pas un scientifique en IA, mais je suppose que ma première idée serait de créer une sorte de produit global – une interface de discussion ayant accès à plusieurs modèles OpenAI différents.

Lorsqu’une requête nécessite un raisonnement avancé, elle ferait appel à GPT-4o, et lorsqu’elle voudrait minimiser les risques d’hallucinations, elle ferait appel à un modèle plus ancien comme o1. Peut-être que l'entreprise pourrait aller encore plus loin et utiliser différents modèles pour prendre en charge différents éléments d'une seule requête, puis utiliser un modèle supplémentaire pour assembler le tout à la fin. Puisqu’il s’agirait essentiellement d’un travail d’équipe entre plusieurs modèles d’IA, peut-être qu’une sorte de système de vérification des faits pourrait également être mis en œuvre.

Toutefois, l’augmentation des taux de précision n’est pas l’objectif principal. L'objectif principal est de réduire les taux d'hallucinations, ce qui signifie que nous devons valoriser les réponses qui disent « je ne sais pas » ainsi que les réponses contenant les bonnes réponses.

En réalité, je n’ai aucune idée de ce que fera OpenAI ni à quel point ses chercheurs s’inquiètent réellement du taux croissant d’hallucinations. Tout ce que je sais, c'est que davantage d'hallucinations sont mauvaises pour les utilisateurs finaux – cela signifie simplement de plus en plus d'occasions pour nous d'être induits en erreur sans nous en rendre compte. Si vous êtes passionné par les LLM, il n'est pas nécessaire d'arrêter de les utiliser, mais ne laissez pas le désir de gagner du temps l'emporter sur la nécessité de vérifier les résultats . Vérifiez toujours les faits !