Cette IA peut usurper votre voix après seulement trois secondes

10 janvier 2023 Hibou Gourou

L'intelligence artificielle (IA) connaît un moment en ce moment , et le vent continue de souffler dans ses voiles avec la nouvelle que Microsoft travaille sur une IA qui peut imiter la voix de n'importe qui après avoir reçu un court échantillon de trois secondes.

Le nouvel outil, baptisé VALL-E, a été formé sur environ 60 000 heures de données vocales en anglais, ce qui, selon Microsoft, est "des centaines de fois plus volumineux que les systèmes existants". En utilisant ces connaissances, ses créateurs affirment qu'il n'a besoin que d'une petite quantité d'entrée vocale pour comprendre comment reproduire la voix d'un utilisateur.

Plus impressionnant, VALL-E peut reproduire les émotions, les tonalités vocales et l'environnement acoustique trouvés dans chaque échantillon, ce avec quoi d'autres programmes d'IA vocale ont eu du mal. Cela lui donne une aura plus réaliste et rapproche ses résultats de quelque chose qui pourrait passer pour un véritable discours humain.

Par rapport à d'autres concurrents de synthèse vocale (TTS), Microsoft affirme que VALL-E "surclasse considérablement le système TTS à la pointe de la technologie en termes de naturel de la parole et de similitude des locuteurs". En d'autres termes, VALL-E ressemble beaucoup plus à de vrais humains qu'à des IA rivales qui rencontrent des entrées audio sur lesquelles ils n'ont pas été formés.

Sur GitHub, Microsoft a créé une petite bibliothèque d'exemples créés à l'aide de VALL-E. Les résultats sont pour la plupart très impressionnants, avec de nombreux échantillons qui reproduisent le rythme et l'accent des voix des intervenants. Certains des exemples sont moins convaincants, indiquant que VALL-E n'est probablement pas un produit fini, mais dans l'ensemble, le résultat est convaincant.

Énorme potentiel — et risques

Dans un article présentant VALL-E , Microsoft explique que VALL-E "peut comporter des risques potentiels en cas d'utilisation abusive du modèle, tels que l'usurpation d'identité vocale ou l'usurpation d'identité d'un locuteur spécifique". Un outil aussi performant pour générer un discours réaliste soulève le spectre de deepfakes de plus en plus convaincants , qui pourraient être utilisés pour imiter n'importe quoi, d'un ancien partenaire romantique à une personnalité internationale de premier plan.

Pour atténuer cette menace, Microsoft déclare "qu'il est possible de créer un modèle de détection pour déterminer si un clip audio a été synthétisé par VALL-E". L'entreprise affirme qu'elle utilisera également ses propres principes d'IA lors du développement de son travail. Ces principes couvrent des domaines tels que l'équité, la sécurité, la confidentialité et la responsabilité.

VALL-E n'est que le dernier exemple de l'expérimentation de Microsoft avec l'IA. Récemment, la société a travaillé sur l'intégration de ChatGPT dans Bing , en utilisant l'IA pour récapituler vos réunions Teams et en greffant des outils avancés dans des applications comme Outlook, Word et PowerPoint . Et selon Semafor, Microsoft cherche à investir 10 milliards de dollars dans le fabricant de ChatGPT OpenAI , une entreprise dans laquelle il a déjà investi des fonds importants.

Malgré les risques apparents, des outils comme VALL-E pourraient être particulièrement utiles en médecine, par exemple, pour aider les gens à retrouver leur voix après un accident. Être capable de répliquer la parole avec un si petit ensemble d'entrées pourrait être extrêmement prometteur dans ces situations, à condition que cela soit fait correctement. Mais avec tout l'argent dépensé pour l'IA – à la fois par Microsoft et d'autres – il est clair que cela ne va pas disparaître de si tôt.