OpenAI n’a besoin que de 15 secondes d’audio pour que son IA puisse cloner une voix

Ces dernières années, le temps d'écoute requis par une IA pour cloner la voix de quelqu'un est de plus en plus court .

Avant, cela ne prenait que quelques minutes, maintenant ce ne sont plus que quelques secondes.

OpenAI, la société soutenue par Microsoft à l'origine du chatbot à IA générative virale ChatGPT, a récemment révélé que sa propre technologie de clonage vocal ne nécessite que 15 secondes de matériel audio pour reproduire la voix d'une personne.

Dans un article sur son site Web, OpenAI a partagé un aperçu à petite échelle d'un modèle appelé Voice Engine, qu'il développe depuis fin 2022.

Voice Engine fonctionne en lui fournissant au moins 15 secondes de contenu parlé. L'utilisateur est ensuite en mesure de saisir du texte pour créer ce qu'OpenAI décrit comme un discours « émotif et réaliste » qui « ressemble beaucoup à l'orateur d'origine ».

OpenAI insiste sur le fait qu'elle adopte une « approche prudente et éclairée quant à une diffusion plus large en raison du potentiel d'utilisation abusive de la voix synthétique », ajoutant qu'elle souhaite « entamer un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s'adapter à ces nouveaux ». capacités. »

Il ajoute : « Sur la base de ces conversations et des résultats de ces tests à petite échelle, nous prendrons une décision plus éclairée quant à l’opportunité et à la manière de déployer cette technologie à grande échelle. »

L’un des abus auxquels fait référence OpenAI est une arnaque que certains criminels commettent déjà en utilisant une technologie similaire qui est accessible au public depuis un certain temps. Il s'agit de cloner une voix, puis d'appeler un ami ou un parent de cette personne pour l'inciter à lui remettre de l'argent par virement bancaire. Il existe également des craintes quant à la manière dont une telle technologie pourrait être utilisée lors de la prochaine élection présidentielle, un problème mis en évidence par un récent incident très médiatisé au cours duquel un appel automatisé utilisant un clone de la voix du président Joe Biden a demandé aux gens de ne pas voter lors des primaires du New Hampshire en janvier.

Une autre préoccupation concerne l' impact de l'amélioration rapide de la technologie sur les moyens de subsistance des acteurs de la voix , qui craignent de se voir de plus en plus demander de céder les droits sur leur voix afin que l'IA puisse être utilisée pour créer une version synthétique, avec une compensation pour un tel contrat. probablement beaucoup plus faible que si l'acteur était invité à effectuer le travail en personne.

En examinant des déploiements plus positifs de la technologie, OpenAI suggère qu'elle pourrait être utilisée pour fournir une aide à la lecture aux non-lecteurs et aux enfants en utilisant des voix naturelles et émotives « représentant un plus large éventail de locuteurs que ce qui est possible avec des voix prédéfinies ». comme traduction instantanée de vidéos et de podcasts, quelque chose que Spotify teste déjà .

Il pourrait également être utilisé pour aider les patients qui perdent progressivement la voix à cause de la maladie à continuer à communiquer en utilisant ce qui ressemble à leur propre voix.

OpenAI propose quelques exemples d'audio généré par l'IA et d'audio de référence sur son site Web et nous sommes sûrs que vous serez d'accord, ils sont assez extraordinaires.