Voici pourquoi les gens disent que GPT-4 devient « paresseux »

29 novembre 2023 Hibou Gourou

OpenAI et ses technologies ont été au milieu d'un scandale pendant la majeure partie du mois de novembre. Entre le licenciement rapide et la réembauche du PDG Sam Altman et le cas curieux de l'arrêt des abonnements payants ChatGPT Plus , OpenAI a maintenu l'industrie de l'intelligence artificielle au centre de l'actualité pendant des semaines.

Aujourd’hui, les passionnés d’IA ont ressassé un problème qui amène beaucoup de gens à se demander si GPT-4 ne devient pas « plus paresseux » à mesure que le modèle de langage continue d’être formé. Beaucoup de ceux qui l'utilisent pour accélérer des tâches plus intensives se sont tournés vers X (anciennement Twitter) pour exprimer leurs griefs concernant les changements perçus.

OpenAI a suffisamment sécurisé GPT-4 pour qu'il devienne paresseux et incompétent.
Convertir ce fichier ? Trop long. Ecrire un tableau ? Voici les trois premières lignes. Lire ce lien ? Désolé, je ne peux pas. Lire ce fichier py ? Oups, non autorisé.
Si frustrant.
— rohit (@krishnanrohit) 28 novembre 2023

Rohit Krishnan sur X a détaillé plusieurs des incidents qu'il a rencontrés lors de l'utilisation de GPT-4, qui est le modèle de langage derrière ChatGPT Plus, la version payante de ChatGPT. Il a expliqué que le chatbot avait refusé plusieurs de ses requêtes ou lui avait donné des versions tronquées de ses demandes alors qu'il avait pu obtenir des réponses détaillées auparavant. Il a également noté que le modèle de langage utilisera des outils autres que ceux qui lui ont été demandés, tels que Dall-E lorsqu'une invite demande un interpréteur de code. Krishnan a également ajouté sarcastiquement que « l'analyse des erreurs » est la façon dont le modèle de langage dit « AFK [loin du clavier], reviens dans quelques heures ».

Matt Wensing sur Xa détaillé son expérience , dans laquelle il a demandé à ChatGPT Plus de dresser une liste de dates entre maintenant et le 5 mai 2024, et le chatbot a demandé des informations supplémentaires, telles que le nombre de semaines entre ces dates, avant de pouvoir terminer la tâche initiale.

Ethan Mollick, professeur à Wharton , a également partagé ses observations sur GPT-4 après avoir comparé les séquences avec l'interpréteur de code qu'il a exécuté en juillet avec des requêtes plus récentes de mardi. Il a conclu que GPT-4 était toujours bien informé, mais a noté qu'il lui avait expliqué comment corriger son code au lieu de le corriger réellement. Essentiellement, il devrait faire le travail qu’il demandait à GPT-4. Bien que Mollick n’ait pas eu l’intention de critiquer le langage, ses observations correspondent à ce que d’autres ont décrit comme des « retours en arrière » du GPT-4.

ChatGPT est connu pour halluciner des réponses pour des informations qu'il ne connaît pas, mais ces erreurs semblent aller bien au-delà des faux pas courants du chatbot IA. GPT-4 a été introduit en mars, mais dès juillet, des rapports selon lesquels le modèle linguistique devenait « plus stupide » ont commencé à faire surface. Une étude réalisée en collaboration avec l'Université de Stanford et l'Université de Californie à Berkeley a observé que la précision du GPT-4 est passée de 97,6 % à 2,4 % entre mars et juin seulement. Il précise que la version payante de ChatGPT n'est pas en mesure de fournir la réponse correcte à une équation mathématique avec une explication détaillée, tandis que la version non payante qui exécute toujours un ancien modèle GPT 3.5 donne la réponse correcte et une explication détaillée du processus mathématique.

Pendant ce temps, Peter Welinder, vice-président d'OpenAI Product, a suggéré que les gros utilisateurs pourraient être confrontés à un phénomène psychologique dans lequel la qualité des réponses pourrait sembler se dégrader avec le temps, alors que le modèle de langage devient en réalité plus efficace.

Il y a eu une discussion pour savoir si GPT-4 est devenu « paresseux » ou non. récemment. Mes tests anecdotiques suggèrent que cela pourrait être vrai.
J'ai répété une séquence d'anciennes analyses que j'ai faites avec Code Interpreter. GPT-4 sait toujours quoi faire, mais continue de me dire de faire le travail. Une étape est désormais plusieurs etamp; certains sont étranges. pic.twitter.com/OhGAMtd3Zq
— Ethan Mollick (@emollick) 28 novembre 2023

Selon Mollick, les problèmes actuels pourraient également être temporaires et dus à une surcharge du système ou à un changement de style d'invite qui n'a pas été signalé aux utilisateurs. Notamment, OpenAI a cité une surcharge du système comme raison de l'arrêt de l'inscription à ChatGPT Plus suite au regain d'intérêt pour le service après que sa conférence inaugurale des développeurs DevDay a introduit une multitude de nouvelles fonctions pour la version payante du chatbot AI. Il existe encore une liste d'attente pour ChatGPT Plus. Le professeur a également ajouté que ChatGPT sur mobile utilise un style d'invite différent, ce qui donne lieu à des « réponses plus courtes et plus précises ».

Yacine sur X a expliqué que le manque de fiabilité du dernier modèle GPT-4 en raison de la baisse du respect des instructions les a amenés à revenir au codage traditionnel, ajoutant qu'ils envisagent de créer un LLM de code local pour reprendre le contrôle des paramètres du modèle. D'autres utilisateurs ont mentionné avoir opté pour des options open source au milieu du déclin du modèle linguistique.

De même, l'utilisateur de Reddit, Mindless-Ad8595, a expliqué que les mises à jour plus récentes de GPT-4 l'ont rendu trop intelligent pour son propre bien. "Il n'est pas accompagné d'un 'chemin' prédéfini qui guide son comportement, ce qui le rend incroyablement polyvalent, mais aussi quelque peu sans direction par défaut", a-t-il déclaré.

Le programmeur recommande aux utilisateurs de créer des GPT personnalisés spécialisés par tâche ou application pour augmenter l'efficacité de la sortie du modèle. Il ne propose aucune solution pratique pour les utilisateurs restant dans l'écosystème d'OpenAI.

Le développeur d'applications Nick Dobos a partagé son expérience avec les incidents de GPT-4, notant que lorsqu'il a invité ChatGPT à écrire pong dans SwiftUI , il a découvert divers espaces réservés et tâches dans le code. Il a ajouté que le chatbot ignorerait les commandes et continuerait à insérer ces espaces réservés et ces tâches dans le code même lorsqu'il lui était demandé de faire autrement. Plusieurs utilisateurs de X ont confirmé des expériences similaires de ce type avec leurs propres exemples de code comportant des espaces réservés et des tâches. Le message de Dobos a attiré l'attention d'un employé d'OpenAI qui a déclaré qu'il enverrait des exemples à l'équipe de développement de l'entreprise pour un correctif, avec la promesse de partager toute mise à jour entre-temps.

Dans l’ensemble, il n’y a pas d’explication claire sur les raisons pour lesquelles GPT-4 connaît actuellement des complications. Les utilisateurs discutant de leurs expériences en ligne ont suggéré de nombreuses idées. Celles-ci vont des modèles de fusion OpenAI à une surcharge continue du serveur, de l'exécution de GPT-4 et GPT-4 Turbo à la tentative de l'entreprise d'économiser de l'argent en limitant les résultats, entre autres.

Il est bien connu qu’OpenAI gère une opération extrêmement coûteuse. En avril 2023, des chercheurs ont indiqué qu'il fallait 700 000 $ par jour , soit 36 cents par requête, pour faire fonctionner ChatGPT. Les analystes du secteur précisaient à l'époque qu'OpenAI devrait augmenter sa flotte de GPU de 30 000 unités pour maintenir ses performances commerciales pour le reste de l'année. Cela impliquerait la prise en charge des processus ChatGPT, en plus de l'informatique pour tous ses partenaires.

En attendant que les performances de GPT-4 se stabilisent, les utilisateurs ont échangé plusieurs plaisanteries, faisant la lumière sur la situation sur X.

"La prochaine chose que vous savez, ce sera un appel malade", a déclaré Southrye .

« Tant de réponses avec « et vous faites le reste ». Non, VOUS faites le reste », a déclaré M.Garnett .

Le nombre de réponses et de messages sur le problème est définitivement difficile à ignorer. Nous devrons attendre et voir si OpenAI peut s'attaquer de front au problème dans une future mise à jour.