Cette IA a cloné ma voix en utilisant seulement trois minutes d’audio

Il y a une scène dans Mission Impossible 3 dont vous vous souviendrez peut-être. Dedans, notre héros. Ethan Hunt (Tom Cruise). s'attaque au méchant du film, le tient sous la menace d'une arme et l'oblige à lire à haute voix une série de phrases bizarres.

« Le plaisir de la compagnie de Busby est ce que j'apprécie le plus », lit-il à contrecœur . « Il a mis une punaise sur la chaise de Miss Yancy, et elle l'a traité d'horrible garçon. A la fin du mois, il lançait deux chatons sur toute la largeur de la pièce… "

Bien qu'ils semblent aléatoires et sans importance, il devient rapidement clair que les mots qu'il lit ne sont pas du tout aléatoires – ils sont délibérément conçus pour aider un logiciel à cloner sa voix. Une fois qu'il a terminé le passage, le logiciel analyse l'audio et donne instantanément à Hunt la capacité de parler et de sonner exactement comme le méchant – la dernière pièce de son déguisement presque parfait.

Mission : Impossible 3 (2006) – Voir une double scène (5/8) | Extraits de films

Maintenant, si vous prenez cette scène et soustrayez tout l'espionnage, les armes à feu et la tension dramatique, vous vous retrouvez avec un exemple assez solide de ce que j'ai vécu au CES aujourd'hui lors d'une démo de My Own Voice , une «voice banking» alimentée par l'IA service d'une startup française appelée Acapela Group.

La raison d'être de l'entreprise est d'aider les personnes qui finiront par perdre la parole. C'est généralement quelque chose qui se produit à la suite d'une blessure, d'une maladie ou de maladies comme la SLA, la maladie de Huntington et le cancer du larynx. Quelle qu'en soit la cause, la plate-forme My Own Voice de l'entreprise permet à une personne de cloner synthétiquement sa voix et de préserver le ton, le timbre et la personnalité uniques qui en font le sien – quelque chose qui est généralement perdu avec la plupart des logiciels de synthèse vocale (pensez à Stephen Colportage).

Maintenant, pour être juste, la technologie de clonage de la voix n'est pas nécessairement nouvelle ou révolutionnaire sur le plan technologique à ce stade. De tels services existent depuis des années, et grâce en partie à l'avènement des deepfakes , il existe actuellement des dizaines d'autres entreprises qui peuvent faire la même chose qu'Acapela Group. Mais il y a deux grandes choses qui distinguent My Own Voice du reste du pack : la vitesse et le but.

Ma propre voix est incroyablement rapide. Contrairement à d'autres services, qui nécessitent souvent des heures d'audio de référence pour créer un clone au son réaliste, l'IA de My Own Voice peut créer un synthétique étonnamment bon après avoir entendu seulement 50 phrases courtes, soit environ 3 minutes d'audio enregistré. C'est fondamentalement comme cette scène de Mission Impossible; ils ont développé un ensemble simplifié de phrases de référence qui permettent à leur IA d'apprendre plus facilement votre son, donc au lieu d'enregistrer manuellement chaque mot imaginable, tout ce que vous avez à faire est de parler à travers une poignée de phrases faciles.

Cependant, son objectif est sans doute plus important que la vitesse du logiciel. Encore une fois, cette technologie n'est pas particulièrement nouvelle ou nouvelle. Il y a eu une poignée de startups remarquables qui ont créé une technologie de clonage de voix similaire – comme la startup canadienne Lyrebird ou la société londonienne Sonantic, par exemple. Mais ces deux startups ont été rapidement acquises et leur technologie de clonage de la voix a fini par être utilisée pour la superposition d'IA dans les films et les logiciels de montage vidéo .

Cela ne veut pas dire que ce ne sont pas de bonnes utilisations de la technologie de clonage de voix. Ils le sont absolument, et ils sont probablement assez rentables pour démarrer – mais c'est précisément ce qui rend My Own Voice si cool. Ce n'est pas souvent que vous rencontrez une technologie aussi puissante qui, plutôt que d'être conçue pour le divertissement ou la productivité, a été développée spécifiquement pour aider les personnes défavorisées et leur donner littéralement une voix.