ChatGPT peut rire maintenant, et c’est carrément effrayant

13 mai 2024 Hibou Gourou

Mira Murati d'OpenAI présente GPT-4o. — OpenAI

Nous l'avons tous vu venir, et le jour est enfin là – ChatGPT se transforme lentement en votre sympathique IA de quartier, avec la possibilité de rire de façon effrayante à vos côtés si vous dites quelque chose de drôle, ou de dire « aww » si vous êtes gentil – et cela ne fait qu'effleurer la surface des annonces d'aujourd'hui. OpenAI vient d'organiser un événement spécial Spring Update , au cours duquel il a dévoilé son dernier grand modèle de langage (LLM) – GPT-4o. Avec cette mise à jour, ChatGPT obtient une application de bureau, qui sera meilleure et plus rapide, mais surtout, elle devient entièrement multimodale.

L'événement a commencé par une introduction de Mira Murati, CTO d'OpenAI, qui a révélé que les mises à jour d'aujourd'hui ne seront pas réservées aux utilisateurs payants : GPT-4o est lancé sur la plate-forme pour les utilisateurs gratuits et les abonnés payants. "La particularité de GPT-4o est qu'il apporte une intelligence de niveau GPT-4 à tout le monde, y compris à nos utilisateurs gratuits", a déclaré Murati.

GPT-4o est censé être beaucoup plus rapide, mais ce qui est impressionnant, c'est qu'il augmente réellement les capacités de quelques crans, en termes de texte, de vision et d'audio. Il peut également être utilisé par les développeurs pour l'intégrer à leurs API, et il est censé être jusqu'à deux fois plus rapide et 50 % moins cher, avec une limite de débit cinq fois plus élevée que celle de GPT-4 Turbo.

Parallèlement au nouveau modèle, OpenAI lance l'application de bureau ChatGPT ainsi qu'une actualisation de l'interface utilisateur sur le site Web. L’objectif est de rendre le chatbot aussi facile à communiquer que possible. "Nous envisageons l'avenir de l'interaction entre nous et les machines, et nous pensons que GPT-4o fait réellement évoluer ce paradigme vers l'avenir de la collaboration, où l'interaction devient beaucoup plus naturelle", a déclaré Murati.

À cette fin, les nouvelles améliorations – que Murati a présentées avec l'aide de Mark Chen et Barret Zoph d'OpenAI – semblent vraiment rendre l'interaction beaucoup plus transparente. GPT-4o est désormais capable d’analyser des vidéos, des images et des discours en temps réel, et peut identifier avec précision les émotions dans les trois. Ceci est particulièrement impressionnant dans ChatGPT Voice, qui est devenu si humain qu’il longe le bord de l’étrange vallée.

Dire « bonjour » à ChatGPT évoque une réponse enthousiaste et amicale qui a juste le moindre soupçon de nuance robotique. Lorsque Mark Chen a dit à l'IA qu'il organisait une démonstration en direct et qu'il avait besoin d'aide pour se calmer, cela a semblé suffisamment impressionné et a sauté sur l'idée qu'il devrait prendre quelques respirations profondes. Il a également remarqué que ces respirations étaient beaucoup trop rapides – plutôt haletantes, en fait – et a expliqué à Chen la bonne façon de respirer, en faisant d'abord une petite blague : « Vous n'êtes pas un aspirateur. »

La conversation se déroule naturellement, car vous pouvez désormais interrompre ChatGPT sans avoir à attendre qu'elle se termine, et les réponses arrivent rapidement, sans pauses gênantes. Lorsqu'on lui a demandé de raconter une histoire avant d'aller au lit, il a répondu aux demandes concernant le ton de sa voix, allant d'enthousiaste à dramatique en passant par robotique. La seconde moitié de la démo a montré la capacité de ChatGPT à lire avec précision le code, à résoudre des problèmes mathématiques via la vidéo, ainsi qu'à lire et décrire le contenu de l'écran.

La démo n'était pas parfaite : le bot semblait parfois se couper, et il était difficile de dire si cela était dû à quelqu'un d'autre qui parlait ou à cause de la latence. Cependant, cela semblait aussi réaliste que ce que l’on peut attendre d’un chatbot, et sa capacité à lire les émotions humaines et à répondre de la même manière est à la fois passionnante et anxiogène. Entendre ChatGPT rire ne figurait pas sur ma liste de choses que je pensais entendre cette semaine, mais nous y sommes.

GPT-4o, avec sa conception multimodale, ainsi que l'application de bureau, seront lancés progressivement au cours des prochaines semaines. Il y a quelques mois, Bing Chat nous a dit qu'il voulait être humain , mais maintenant, nous sommes sur le point d'obtenir une version de ChatGPT qui pourrait être aussi proche de l'humain que nous n'en avons jamais vu depuis le début du boom de l'IA.