Toutes les choses folles que les gens font avec le nouveau mode vocal de ChatGPT

Le mode vocal avancé de ChatGPT est arrivé mardi pour quelques abonnés OpenAI choisis pour faire partie de la version alpha de la fonctionnalité très attendue.

La fonctionnalité a été annoncée pour la première fois en mai . Il est conçu pour supprimer la fenêtre contextuelle conventionnelle basée sur le texte et pour converser en utilisant des mots naturels et prononcés, prononcés de manière réaliste. Il fonctionne dans une variété d’ accents et de langues régionales . Selon OpenAI , Advanced Voice « offre des conversations plus naturelles en temps réel, vous permet d'interrompre à tout moment, et de détecter et répondre à vos émotions. »

Il existe certaines limites à ce que les utilisateurs peuvent demander au mode vocal. Le système parlera avec l'une des quatre voix prédéfinies et n'est pas capable d'imiter les voix d'autres personnes, qu'il s'agisse d'individus ou de personnalités publiques.

En fait, la fonctionnalité bloquera carrément les sorties qui diffèrent des quatre préréglages. De plus, le système ne générera pas d'audio protégé par le droit d'auteur ni de musique. Alors bien sûr, la première chose que quelqu’un a faite a été de le faire en beatbox.

Voix avancée en tant que B-boy

Ethan Sutin, utilisateur d'Alpha, a publié un fil de discussion sur X (anciennement Twitter) montrant un certain nombre de réponses d'Advanced Voice, y compris celle ci-dessus où l'IA déroule un court « rap d'anniversaire » puis passe au beatbox. Vous pouvez réellement entendre l’IA respirer numériquement entre les battements.

Advanced Voice en tant que conteur

Bien qu'il soit interdit à Advanced Voice de créer des chansons en gros, il peut générer des effets sonores de fond pour les histoires qu'il récite au coucher.

Dans l'exemple ci-dessus de Kesku, l'IA ajoute des crashs et des claquements au bon moment à son histoire de cyborg voyou après avoir été invité à : « Racontez-moi une histoire de thriller d'action passionnante avec des éléments de science-fiction et créez une atmosphère en faisant des bruits appropriés des choses. qui se passe (par exemple : une tempête qui hurle fort) ».

L'IA est également capable de créer des personnages réalistes sur place, comme le démontre l'exemple de Sutin ci-dessus.

Advanced Voice en tant que locuteur émotif

La nouvelle fonctionnalité semble si réaliste en partie parce qu’elle est capable d’émouvoir comme le ferait un humain. Dans l'exemple ci-dessus, Ethan Sutin recrée la célèbre scène de Star Trek II . Dans les deux exemples ci-dessous, l'utilisateur Cristiano Giardina oblige l'IA à parler sur des tons différents et dans des langues différentes.

Advanced Voice en tant qu'amoureux des animaux

Les talents vocaux de l’IA ne s’arrêtent pas aux langues humaines. Dans l’exemple ci-dessus, Advanced Voice doit émettre des sons de chat, et ce avec une précision infaillible.

En plus de ressembler à un chat, les utilisateurs peuvent pimenter l’IA de questions sur leurs amis félins biologiques et recevoir des astuces et des conseils personnalisés en temps réel.

Advanced Voice comme traducteur en temps réel

Advanced Voice peut également exploiter l'appareil photo de votre appareil pour faciliter ses efforts de traduction. Dans l'exemple ci-dessus, l'utilisateur Manuel Sainsily pointe son téléphone vers un GameBoy Advanced exécutant une version en langue japonaise d'un jeu Pokémon et demande à l'IA de lire la boîte de dialogue à l'écran pendant qu'il joue.

La société note que la vidéo et le partage d'écran ne feront pas partie de la version alpha mais seront disponibles à une date ultérieure. OpenAI prévoit d'étendre la version alpha à des abonnés Plus supplémentaires « au cours des prochaines semaines » et la proposera à tous les utilisateurs Plus « à l'automne ».