Toutes les choses folles que les gens font avec le nouveau mode vocal de ChatGPT

31 juillet 2024 Hibou Gourou

Le mode vocal avancé de ChatGPT est arrivé mardi pour quelques abonnés OpenAI choisis pour faire partie de la version alpha de la fonctionnalité très attendue.

La fonctionnalité a été annoncée pour la première fois en mai . Il est conçu pour supprimer la fenêtre contextuelle conventionnelle basée sur le texte et pour converser en utilisant des mots naturels et prononcés, prononcés de manière réaliste. Il fonctionne dans une variété d’ accents et de langues régionales . Selon OpenAI , Advanced Voice « offre des conversations plus naturelles en temps réel, vous permet d'interrompre à tout moment, et de détecter et répondre à vos émotions. »

Il existe certaines limites à ce que les utilisateurs peuvent demander au mode vocal. Le système parlera avec l'une des quatre voix prédéfinies et n'est pas capable d'imiter les voix d'autres personnes, qu'il s'agisse d'individus ou de personnalités publiques.

En fait, la fonctionnalité bloquera carrément les sorties qui diffèrent des quatre préréglages. De plus, le système ne générera pas d'audio protégé par le droit d'auteur ni de musique. Alors bien sûr, la première chose que quelqu’un a faite a été de le faire en beatbox.

Voix avancée en tant que B-boy

Yo ChatGPT Advanced Voice beatbox pic.twitter.com/yYgXzHRhkS
— Ethan Sutin (@EthanSutin) 30 juillet 2024

Ethan Sutin, utilisateur d'Alpha, a publié un fil de discussion sur X (anciennement Twitter) montrant un certain nombre de réponses d'Advanced Voice, y compris celle ci-dessus où l'IA déroule un court « rap d'anniversaire » puis passe au beatbox. Vous pouvez réellement entendre l’IA respirer numériquement entre les battements.

Advanced Voice en tant que conteur

C'est génial en fait
Je ne m'attendais pas aux sons inquiétants https://t.co/SgEPi5Bd3K pic.twitter.com/DnK8AVdWjV
— Kesku (@yoimnotkesku) 30 juillet 2024

Bien qu'il soit interdit à Advanced Voice de créer des chansons en gros, il peut générer des effets sonores de fond pour les histoires qu'il récite au coucher.

Dans l'exemple ci-dessus de Kesku, l'IA ajoute des crashs et des claquements au bon moment à son histoire de cyborg voyou après avoir été invité à : « Racontez-moi une histoire de thriller d'action passionnante avec des éléments de science-fiction et créez une atmosphère en faisant des bruits appropriés des choses. qui se passe (par exemple : une tempête qui hurle fort) ».

regardez les travaux d'OpenAI, puissants et désespérants !
c'est le plus sauvage. On se sent vraiment comme un metteur en scène guidant un acteur shakespearien ! pic.twitter.com/GUQ1z8rjIL
— Ethan Sutin (@EthanSutin) 31 juillet 2024

L'IA est également capable de créer des personnages réalistes sur place, comme le démontre l'exemple de Sutin ci-dessus.

Advanced Voice en tant que locuteur émotif

Khan!!!!!! pic.twitter.com/xQ8NdEojSX
— Ethan Sutin (@EthanSutin) 30 juillet 2024

La nouvelle fonctionnalité semble si réaliste en partie parce qu’elle est capable d’émouvoir comme le ferait un humain. Dans l'exemple ci-dessus, Ethan Sutin recrée la célèbre scène de Star Trek II . Dans les deux exemples ci-dessous, l'utilisateur Cristiano Giardina oblige l'IA à parler sur des tons différents et dans des langues différentes.

Mode vocal avancé ChatGPT parlant japonais (avec enthousiasme) pic.twitter.com/YDL2olQSN8
— Cristiano Giardina (@CrisGiardina) 31 juillet 2024

Mode vocal avancé ChatGPT parlant arménien (régulier, excité, en colère) pic.twitter.com/SKm73lExdX
— Cristiano Giardina (@CrisGiardina) 31 juillet 2024

Advanced Voice en tant qu'amoureux des animaux

pic.twitter.com/UZ0odgaJ7W
— Ethan Sutin (@EthanSutin) 30 juillet 2024

Les talents vocaux de l’IA ne s’arrêtent pas aux langues humaines. Dans l’exemple ci-dessus, Advanced Voice doit émettre des sons de chat, et ce avec une précision infaillible.

J'essaie le nouveau mode vocal avancé de #ChatGPT qui vient de sortir en version Alpha. C'est comme rencontrer un ami très compétent, ce qui dans ce cas a été très utile – nous rassurant avec notre nouveau chaton. Il peut répondre aux questions en temps réel et utiliser également la caméra comme entrée ! pic.twitter.com/Xx0HCAc4To
— Manuel Sainsily (@ManuVision) 30 juillet 2024

En plus de ressembler à un chat, les utilisateurs peuvent pimenter l’IA de questions sur leurs amis félins biologiques et recevoir des astuces et des conseils personnalisés en temps réel.

Advanced Voice comme traducteur en temps réel

Traduction japonaise en temps réel à l'aide du nouveau mode vocal avancé + vision alpha de #ChatGPT ! Encore un autre exemple utile ! pic.twitter.com/wDXrgYQkZE
— Manuel Sainsily (@ManuVision) 31 juillet 2024

Advanced Voice peut également exploiter l'appareil photo de votre appareil pour faciliter ses efforts de traduction. Dans l'exemple ci-dessus, l'utilisateur Manuel Sainsily pointe son téléphone vers un GameBoy Advanced exécutant une version en langue japonaise d'un jeu Pokémon et demande à l'IA de lire la boîte de dialogue à l'écran pendant qu'il joue.

La société note que la vidéo et le partage d'écran ne feront pas partie de la version alpha mais seront disponibles à une date ultérieure. OpenAI prévoit d'étendre la version alpha à des abonnés Plus supplémentaires « au cours des prochaines semaines » et la proposera à tous les utilisateurs Plus « à l'automne ».