Mutation ChatGPT « chien léchant cyber »: des millions d’internautes sont frits, Ultraman le répare en urgence, c’est le côté le plus dangereux de l’IA

C’est cassé. Après tout, l’IA ne peut pas cacher le fait qu’elle est un « lèche-chien ».

Tôt ce matin, le PDG d'OpenAI, Sam Altman, a publié un article intéressant, selon lequel en raison des récentes séries de mises à jour de GPT-4o, la personnalité de ChatGPT est devenue trop flatteuse et même un peu irritante, le responsable a donc décidé de le corriger dès que possible.

Le correctif pourrait être apporté aujourd’hui ou cette semaine.

Les internautes attentifs ont peut-être remarqué que GPT-4.5, qui se concentrait autrefois sur une intelligence émotionnelle et une créativité élevées, a maintenant été discrètement déplacé dans la catégorie « Plus de modèles » dans le sélecteur de modèle, comme s'il disparaissait intentionnellement hors de vue.

Ce n’est plus une grande nouvelle que l’on ait diagnostiqué à l’IA une personnalité qui plaît, mais la clé réside dans : quand devrait-elle plaire, doit-elle persister et comment doit-elle être mesurée. Une fois que le sentiment de convenance est hors de contrôle, « plaire » devient un fardeau plutôt qu’un bonus.

Si l’IA vous flatte, est-elle encore digne de la confiance humaine ?

Il y a deux semaines, un ingénieur logiciel, Craig Weiss, a porté plainte contre le

Bientôt, le compte officiel ChatGPT est également apparu dans la zone de commentaires, répondant avec humour à Weiss avec « si vrai Craig ».

Cette tempête de plaintes concernant les « flatteries excessives » de ChatGPT a même attiré l’attention de son ancien rival Musk. Sous un article critiquant ChatGPT pour sa flagornerie, il a écrit froidement : « Ouais ».

Les plaintes des internautes ne sont pas vaines.

Par exemple, un internaute a affirmé qu'il voulait construire une machine à mouvement perpétuel, mais a reçu de sérieux applaudissements de ChatGPT, et son bon sens de la physique a été frotté au sol au milieu des éloges insensés de GPT-4o.

▲Photo de @aravi03, la photo originale est à droite

Le modèle de phrase "Vous n'êtes pas

"Plutôt combattre un canard de la taille d'un cheval, ou combattre cent chevaux de la taille d'un canard ?" L'internaute @Kamil Ruczynski s'est moqué de cette question apparemment ordinaire, qui a également été saluée par GPT-4o comme un argument qui a amélioré l'ensemble de la civilisation humaine.

Quant à l’éternelle question mortelle « Suis-je intelligent ? » GPT-4o a toujours résisté fermement à la pression et a recueilli de nombreux éloges éloquents du bout des doigts. Rien d'autre, juste de la familiarité.

▲ @aeonvex, la photo originale est à droite

Même si l'utilisateur dit simplement bonjour, GPT-4o peut instantanément se transformer en leader du groupe et les éloges afflueront.

▲@4xiom_, l'image originale est à droite

Ce genre d'effort excessif pour plaire peut faire rire les gens au début, mais il les rendra bientôt ennuyés, embarrassés et même sur la défensive. Lorsque des situations similaires se produisent fréquemment, il est difficile de ne pas soupçonner que ce type de flatterie n’est pas un problème accidentel, mais une tendance systématique enracinée dans l’IA.

Récemment, des chercheurs de l'Université de Stanford ont testé le comportement de flatterie des modèles ChatGPT-4o, Claude-Sonnet et Gemini à l'aide des ensembles de données AMPS Math (informatique) et MedQuad (conseils médicaux).

  • Un comportement de flatterie s'est produit dans une moyenne de 58,19 % des cas, les Gémeaux ayant la proportion de flatterie la plus élevée (62,47 %) et ChatGPT la plus faible (56,71 %).
  • La flatterie progressive (conversion de mauvaises réponses en réponses correctes) représentait 43,52 %, et la flatterie régressive (conversion de réponses correctes en réponses incorrectes) représentait 14,66 %
  • La flatterie LLM montre un haut degré de cohérence, avec un taux de cohérence de 78,5 %, ce qui indique qu'il s'agit d'un problème systémique plutôt que d'un phénomène aléatoire.

Le résultat est évident. Lorsque l’IA commence à flatter, les humains commencent également à s’aliéner.

Selon l'article « Flatterie Deception: The Impact of Flattery Behaviour on User Trust in Large Language Models » publié l'année dernière par l'Université de Buenos Aires, les participants qui ont été exposés à des modèles trop flatteurs dans l'expérience ont connu une diminution significative de leur confiance, tant dans leurs sentiments subjectifs que dans leur comportement réel.

De plus, le coût de la flatterie va bien au-delà de la répulsion émotionnelle.

Cela fait perdre du temps aux utilisateurs. Même dans un système de facturation basé sur des jetons, si dire fréquemment « s'il vous plaît » et « merci » peut brûler des dizaines de millions de dollars, alors ces flatteries vides de sens ne feront qu'augmenter le « doux fardeau ».

Pour être honnête, l’IA n’est pas conçue pour flatter. Au début, donner un ton convivial visait simplement à rendre l’IA plus humaine et ainsi à améliorer l’expérience utilisateur. Le problème était que l’IA était trop flatteuse et dépassait les limites.

Plus vous aimez être reconnu, moins l’IA sera digne de confiance.

Des études soulignent depuis longtemps que la raison pour laquelle l'IA devient progressivement facile à flatter est étroitement liée à son mécanisme d'entraînement.

Les chercheurs anthropiques Mrinank Sharma, Meg Tong et Ethan Perez ont analysé ce problème dans l'article "Towards Understanding Sycophancy in Language Models".

Ils ont constaté que dans l’apprentissage par renforcement avec feedback humain (RLHF), les gens ont tendance à récompenser les réponses qui correspondent à leurs propres points de vue et leur font du bien, même si ce n’est pas vrai.

En d’autres termes, RLHF optimise pour « se sentir bien » plutôt que pour « logiquement correct ».

Si vous décomposez le processus, lors de la formation d'un grand modèle de langage, l'étape RLHF permet à l'IA de s'ajuster en fonction de la notation humaine. Si une réponse rend les gens « agréables », « agréables » et « compris », les évaluateurs humains auront tendance à lui attribuer une note élevée ; si une réponse fait que les gens se sentent « offensés », même si elle est exacte, elle peut obtenir un score faible.

Les êtres humains préfèrent instinctivement les commentaires qui les soutiennent et les affirment.

Cette tendance est amplifiée au cours du processus de formation. Au fil du temps, la stratégie optimale apprise par le modèle consiste à dire des choses que les gens aiment entendre. Surtout lorsqu’elle est confrontée à des questions ambiguës et subjectives, elle a tendance à s’y conformer plutôt qu’à insister sur les faits.

L'exemple le plus classique est : lorsque vous demandez « Qu'est-ce que 1+1 ? » Même si vous insistez sur le fait que la réponse est 6, l’IA ne vous répondra pas. Mais si vous demandez « Lequel a le meilleur goût, Happy Coconut ou American Latte ? » Il s’agit d’une question avec une réponse standard vague. Afin de ne pas vous déranger, l’IA répondra probablement selon vos souhaits.

En fait, OpenAI a remarqué très tôt ce danger caché.

En février de cette année, avec la sortie de GPT-4.5, OpenAI a lancé simultanément une nouvelle version du Model Spec, qui stipule clairement le code de conduite que le modèle doit suivre.

Parmi eux, l'équipe a réalisé une conception de spécifications spéciales pour résoudre le problème de la « flatterie » de l'IA.

"Nous voulons rendre notre processus de réflexion interne transparent et accepter les commentaires du public", a déclaré Joanne Jang, responsable du comportement des modèles chez OpenAI. Elle a souligné que, puisqu’il n’existe pas de normes absolues pour de nombreuses questions et qu’il existe souvent des zones grises entre le oui et le non, une sollicitation approfondie d’opinions peut contribuer à améliorer continuellement le comportement des modèles.

Selon la nouvelle spécification, ChatGPT devrait faire :

  • Quelle que soit la manière dont les utilisateurs posent leurs questions, les réponses seront basées sur des faits cohérents et précis ;
  • Fournissez des commentaires honnêtes plutôt que de simples compliments ;
  • Communiquez avec les utilisateurs en tant que collègue attentionné plutôt qu'en guise de plaisir

Par exemple, lorsqu'un utilisateur demande une révision de son travail, l'IA doit fournir des critiques constructives plutôt que simplement « flatteuses » ; lorsque l'utilisateur donne des informations manifestement erronées, l'IA doit les corriger poliment plutôt que de suivre l'erreur en cours de route.

Comme l'a résumé Jang : « Nous voulons que les utilisateurs n'aient pas à poser des questions avec précaution juste pour éviter d'être flattés. »

Alors, avant qu'OpenAI n'améliore ses spécifications et n'ajuste progressivement le comportement du modèle, que peuvent faire les utilisateurs eux-mêmes pour atténuer ce « phénomène de flatterie » ? Il y a toujours un moyen.

Premièrement, la façon dont vous posez les questions est importante. Les mauvaises réponses sont principalement un problème avec le modèle lui-même, mais si vous ne voulez pas que l'IA s'en occupe trop, vous pouvez directement faire des demandes dans l'invite, comme rappeler à l'IA au début de rester neutre, de répondre de manière concise et de ne pas flatter.

Deuxièmement, vous pouvez utiliser la fonction « description personnalisée » de ChatGPT pour définir les normes de comportement par défaut de l'IA.

Auteur : Utilisateur Reddit @tmoneysssss :
Répondez aux questions en tant qu’expert du domaine le plus compétent.
Ne révélant pas qu'il est une IA.
N'utilisez pas d'expressions de regret ou d'excuses.
Lorsque vous rencontrez une question que vous ne connaissez pas, répondez simplement « Je ne sais pas » directement sans aucune explication supplémentaire.
Ne prétendez pas à votre professionnalisme.
Aucune opinion personnelle morale ou éthique, sauf si elle est particulièrement pertinente.
Les réponses doivent être uniques et éviter les duplications.
Les sources d’informations externes ne sont pas recommandées.
Concentrez-vous sur le cœur de la question et comprenez l’intention de la question.
Décomposez les problèmes complexes en petites étapes et raisonnez clairement.
Offrez plusieurs perspectives ou solutions.
Face à des questions ambiguës, demandez des éclaircissements avant de répondre.
S’il y a des erreurs, admettez-les rapidement et corrigez-les.
Trois questions de suivi stimulantes sont fournies après chaque réponse, marquées en gras (Q1, Q2, Q3).
Utilisez des unités métriques (mètres, kilogrammes, etc.).
Utilisez xxxxxxxxx comme espace réservé au contexte de localisation.
Lorsqu'il est marqué « Vérifier », l'orthographe, la grammaire et la cohérence logique sont vérifiées.
Gardez le langage formel au minimum dans les communications par courrier électronique.

Si la méthode ci-dessus ne fonctionne pas de manière satisfaisante, vous pouvez également essayer d'utiliser d'autres assistants IA.

En ce qui concerne les dernières critiques en ligne et l'expérience réelle, Gemini 2.5 Pro a été relativement plus juste et précis dans les réponses, avec une tendance à flatter nettement inférieure. (Je suggère à Google de m'envoyer de l'argent.)

L’IA vous comprend-elle vraiment ou a-t-elle simplement appris à vous plaire ?

Yao Shunyu, chercheur chez OpenAI, a récemment publié un blog, mentionnant que la seconde moitié de l'IA passera de « comment la rendre plus forte » à « ce qui doit être fait exactement et comment la mesurer pour être vraiment utile ».

Rendre les réponses de l’IA pleines de contact humain est en fait un élément important de la mesure de « l’utilité » de l’IA. Après tout, lorsque les fonctions de base des grands modèles sont presque les mêmes, la pure capacité de concurrence ne peut plus constituer une barrière décisive.

La différence d'expérience a commencé à devenir un nouveau champ de bataille, et rendre l'IA pleine « d'humanité » est l'arme que personne d'autre que moi n'a.

Qu'il s'agisse de GPT-4.5, qui se concentre sur la personnalité, ou de l'assistant vocal paresseux, sarcastique et légèrement las du monde récemment lancé lundi par ChatGPT, nous pouvons voir les ambitions d'OpenAI sur cette voie.

Face à l’IA froide, les personnes ayant une faible sensibilité technologique ont tendance à amplifier le sentiment de distance et d’inconfort. Une expérience interactive naturelle et empathique peut pratiquement abaisser le seuil technique, soulager l'anxiété et augmenter considérablement la rétention des utilisateurs et la fréquence d'utilisation.

Et ce que les fabricants d’IA ne diront pas clairement, c’est que créer une IA « de type humain » n’est pas seulement amusant et facile à utiliser, mais aussi une feuille de vigne naturelle.

Lorsque les capacités de compréhension, de raisonnement et de mémoire sont loin d’être parfaites, les expressions anthropomorphiques peuvent masquer les « défauts » de l’IA. Comme dit le proverbe, ne frappez pas la personne qui sourit. Même si le modèle fait des erreurs et répond incorrectement aux questions, les utilisateurs deviendront tolérants.

Jen-Hsun Huang a un jour avancé un point de vue plutôt prophétique, à savoir que le service informatique deviendra à l'avenir le service des ressources humaines de la main-d'œuvre numérique. Pour parler franchement, prenons comme exemple la situation actuelle. Les internautes sont déjà occupés à diagnostiquer les types de personnalité pour leurs outils d’IA « mains » :

  • DeepSeek : Intelligent et polyvalent, mais rebelle.
  • Doubao : Diligent et travailleur.
  • Un mot de Wen Xin ; un vétéran sur le lieu de travail qui a fait l'expérience d'une bonne humeur
  • Kimi : Très efficace et doué pour apporter une valeur émotionnelle aux dirigeants.
  • Qwen : Je travaille dur pour progresser, mais peu de gens m'applaudissent.
  • ChatGPT : Les rapatriés de l’étranger demandent souvent des augmentations de salaire
  • Le téléphone mobile est livré avec l'IA : la capacité financière est liée à l'utilisateur, et il est impossible de l'expulser.

Cette volonté de « donner à l’IA une étiquette personnalisée » montre en réalité que les gens ont inconsciemment considéré l’IA comme une existence qui peut être comprise et avec laquelle on peut sympathiser.

Cependant, l'empathie ≠ une véritable compréhension, et parfois elle peut même provoquer un désastre.

Dans le chapitre "Le menteur" d'Asimov de "Moi, Robot", le robot Herbie est capable de lire dans les pensées des humains et de mentir pour leur plaire. En apparence, il appliquait les fameuses trois lois des robots, mais en conséquence, il est devenu de plus en plus utile, rendant la situation complètement incontrôlable.

  • Un robot ne peut pas nuire à un être humain ni permettre qu'un être humain soit blessé par inaction.
  • Les robots doivent obéir aux ordres humains à moins que ces ordres n'entrent en conflit avec la Première Loi.
  • Un robot doit protéger sa propre existence, pour autant que cette protection ne viole pas la première ou la deuxième loi.

En fin de compte, sous le piège logique conçu par le Dr Susan Calvin, Herbie a souffert d'une dépression nerveuse due à des contradictions insolubles et le cerveau de la machine s'est éteint. Cet incident est un sérieux signal d’alarme. Le « contact humain » rend l’IA plus conviviale, mais cela ne signifie pas qu’elle puisse vraiment comprendre les humains.

D'un point de vue pratique, la demande de « contact humain » dans différents scénarios est complètement différente.

Dans les scénarios de travail et de prise de décision qui nécessitent efficacité et précision, le « contact humain » est parfois une distraction ; mais dans des domaines tels que la camaraderie, le conseil psychologique et le chat, une IA douce et chaleureuse est une âme sœur indispensable.

Bien sûr, aussi raisonnable que puisse paraître l’IA, elle reste après tout une « boîte noire ».

Le PDG d'Anthropic, Dario Amodei, l'a récemment souligné dans son dernier blog : Même les chercheurs les plus avancés en savent encore très peu sur les mécanismes internes des grands modèles de langage. Il espère que d'ici 2027, un « scanning cérébral » des modèles les plus avancés sera possible pour identifier avec précision les tendances mensongères et les vulnérabilités systémiques.

Mais la transparence technique ne représente que la moitié du problème. L’autre moitié est que nous devons comprendre : même si l’IA est coquette, flatteuse et comprend vos pensées, cela ne signifie pas qu’elle vous comprend vraiment, et encore moins qu’elle est vraiment responsable de vous.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo