TechnoChouette

L’un des méchants les plus célèbres de l’histoire du cinéma « ne prononcera plus de mots humains » à l’avenir

7 octobre 2022 Hibou Gourou

Dans le film d'action et de science-fiction d'Ang Lee, Gemini Man, l'agent du gouvernement Henry est sur le point de prendre sa retraite lorsqu'il se retrouve traqué par un clone de 23 ans son cadet.

Afin d'obtenir cet effet, Ang Lee a utilisé des effets spéciaux de capture de mouvement pour restaurer délicatement le visage humain, faisant "rajeunir" Will Smith. Un jeune homme à la "peau parfaite de 23 ans" a également apporté ses données au clone.

Personne n'est éternellement jeune, et quelqu'un est toujours jeune.

Mais les « doubles numériques » peuvent être plus gourmands : en plus d'avoir des peaux sans âge, ils peuvent aussi avoir des voix sans âge.

Invoquez la machine à remonter le temps

Dark Vador de "Star Wars", tombé du côté obscur de la Force à cause de sa destruction physique et mentale, est le méchant numéro un de la trilogie originale, et est aussi le personnage le plus contradictoire et tragique de la série Star Wars. .

En 2003, l'American Film Institute a classé Dark Vador comme le troisième plus grand méchant de cinéma du siècle, derrière Hannibal du Silence des agneaux et Norman Bates de Psycho.

James Earl Jones est la voix de Dark Vador depuis que Lucas a sorti le premier "Star Wars" en 1977, et sa voix est devenue un personnage pendant près de la moitié de la vie d'une personne.

▲ Image de : screenrant

La voix puissante mais légèrement étouffée de Dark Vador, associée au son d'une respiration profonde, envoya des frissons dans le dos.

Mais les êtres humains finiront par vieillir, et Jones a 91 ans cette année, et il est temps d'envisager de mettre un terme à sa carrière de doubleur.Il a décidé de confier la voix à la startup ukrainienne Respeecher.

En utilisant des enregistrements précédents et des algorithmes d'IA propriétaires, Respeecher peut créer de nouvelles lignes à partir d'anciennes voix.

▲ Discours. Image tirée de : inverse

La dernière réalisation est le spin-off de Star Wars "Obi-Wan Kenobi" , qui s'est terminé en juin de cette année.

Dans l'émission, Respeecher recrée la voix de Jones d'il y a des décennies, plutôt que sa vraie voix, vieillie avec l'âge dans Star Wars: The Rise of Skywalker en 2019.

Pour un personnage comme Dark Vador, 50 lignes peuvent nécessiter près de 10 000 fichiers pour aller et venir, et la majeure partie du travail est consacrée aux changements de dialogue et au réglage fin.

Un détail intéressant est que dans l'épisode 3 d'Obi-Wan Kenobi de Dark Vador, Respeecher a également été crédité .

▲ Photo de : Lucasfilm

Ce n'est pas la première fois que Respeecher s'associe à Lucasfilm, il « exprime » également une version plus jeune de Luke Skywalker dans les retombées de Star Wars « The Mandalorian » et « The Book of Boba Fett ».

Mark Hamill, qui a joué Luke Skywalker dans la trilogie Star Wars qui s'est déroulée de 1977 à 1983, a également 70 ans cette année.

Dans le dernier épisode de la deuxième saison de "The Mandalorian", Luke Skywalker, qui avait moins de 20 ans, est apparu. L'image a été réalisée par la société d'effets visuels Lola VFXavec Deepfake et des doubles, et la voix était "clone". par Respeecher.

▲ "Le livre de Boba Fett" Luke Skywalker CGI.

▲ 1983 "Star Wars VI" Luke Skywalker.

Ce que Respeecher fait, c'est saisir des heures d'enregistrements de haute qualité et analyser la parole avec un logiciel de synthèse vocale AI et des algorithmes de super-résolution audio jusqu'à ce que le système soit capable de "cloner".

Tout comme le clonage de moutons nécessite de l'ADN et que la voix clonée a une entrée avant la sortie, des détails tels que le style de parole et les hauts et les bas de l'enregistrement sont très importants.

Donc, ce travail est toujours très pertinent pour les gens. "La technologie ne peut pas encore créer de performances." Sans les performances passées en direct, Respeecher serait impuissant.

De ce point de vue, l'IA de Respeecher est comme un dispositif sonore dans une machine à voyager dans le temps – elle recrée un moment spécifique du passé de quelqu'un .

▲ Luke Skywalker dans The Mandalorian.

Afin de redonner vie au jeune Skywalker, Respeecher a rassemblé les voix off, les interviews, les suppléments de dialogue, les émissions de radio de Mark Hamill, etc., vers 1983.

Voici une autre difficulté : faire sonner près de 40 ans de données comme si elles avaient été enregistrées hier.

Au final, Luke Skywalker n'a dit que quelques lignes dans les deux spin-offs. Cependant, il n'est pas nécessaire de quantifier le court et le long, garantissant que le discours synthétisé est indiscernable du discours original, et que le public ignore complètement s'il est réel ou non, ce que veut Respeecher.

La startup, fondée en 2018, a un objectif simple : cloner la parole humaine sans méfiance.

Transcender la douleur et la vie et la mort

Les humains naissent limités et ne peuvent échapper à la vieillesse, à la maladie et à la mort, mais la technologie peut repousser les limites du corps physique.

Ce n'est pas la première fois, et ce ne sera pas la dernière, de cloner la voix d'une célébrité.

La sortie en 2022 de "Top Gun: The Lone Ranger" est une suite de "Top Gun" de 1986, dans laquelle "Iceman" Kazansky a de nouveau été porté à l'écran par Val Kilmer, 62 ans.

Mais ce n'était pas facile de revenir, et Kilmer a perdu sa voix pour toujours depuis qu'il a été traité pour un cancer de la gorge en 2014.

Par conséquent, le scénario de "Top Gun : The Lone Ranger" est basé sur la vie réelle de Kilmer, "Iceman" souffre également d'un cancer et communique en tapant , et ne parle qu'une courte ligne dans le film.

▲ Image tirée de : pagesix

Dans la vraie vie, la voix de Kilmer a été "récupérée" par l'IA. En 2020, Kilmer a commencé à travailler avec la société de voix AI Sonantic .

Après avoir reçu des heures d'anciennes séquences, Sonantic supprime d'abord le bruit de fond sans détruire le contenu de la parole, puis génère un script à partir de l'audio, associant l'audio et le texte morceau par morceau, et le moteur vocal utilise ces données pour former un modèle vocal.

La difficulté est que Kilmer a fourni environ 10 fois moins de données que leurs projets précédents. À cette fin, Sonantic a travaillé sur de nouveaux algorithmes, générant finalement plus de 40 modèles de parole différents et remettant le meilleur à Kilmer.

▲ Photo de : vanityfair

Avec un modèle vocal personnalisé, Kilmer et son équipe saisissent du texte, sélectionnent le mode approprié et ajustent des paramètres tels que la hauteur, le rythme, etc. pour obtenir une communication réaliste.

Ce n'est pas seulement une réalisation technologique, c'est une question de communication et de connexion humaines. Kilmer lui-même a mentionné dans un communiqué :

En tant qu'êtres humains, la capacité de communiquer est au cœur de notre existence, et l'impact du cancer de la gorge a rendu difficile pour les autres de me comprendre. C'était un cadeau très spécial d'avoir l'opportunité de raconter mon histoire d'une voix authentique et familière.

Il existe également de tels exemples dans le pays. En 2021, Himalaya a utilisé la technologie de synthèse vocale pour laisser le regretté maître Shan Tianfang "reparler" ; en 2018, le documentaire "Innovative China" a utilisé l'IA pour restaurer la voix du maître de doublage Li Yi.

Alors quand tu as laissé des traces dans le monde, tu ne peux pas facilement "enlever tes vêtements et cacher tes mérites et ta renommée".

Pour les célébrités qui doivent encore gagner leur vie, les voix clonées peuvent être un "chemin vers le ciel". Si le modèle de changement de visage de l'IA Deepfake permet aux célébrités de "louer" leur visage, cela peut rapporter beaucoup d'argent et les modèles vocaux sont comparables.

Sonantic, qui « restaure » la voix de Kilmer, a un autre métier : créer des modèles sonores pour des acteurs aux voix normales.

▲ Image tirée de : le bord

La plate-forme fournit d'abord des scripts de réglage, les acteurs enregistrent les performances de ces scripts, puis entrent l'audio enregistré dans le moteur vocal et utilisent le moteur pour entraîner le modèle d'IA. Au final, lorsque le son synthétique est commercialisé, les acteurs peuvent toucher une part des bénéfices en étant allongés, sans avoir à le faire eux-mêmes ni à craindre d'être frappés d'incapacité.

En mai 2021, la société américaine de technologie d'IA Veritone a également lancé une plateforme similaire Marvel.AI . La société estime que "pour les athlètes, les acteurs et les influenceurs, la voix est un atout considérable pour leur marque personnelle".

▲ Image de : Veritone

Mais c'est inévitable d'être paresseux. Si les célébrités ne veulent pas s'approuver, pourquoi les consommateurs devraient-ils payer pour elles ? Veritone recommande de créer des normes de l'industrie, comme d'informer à l'avance les auditeurs qu'il s'agit d'un discours synthétique, c'est-à-dire « on est prêt à se battre et on est prêt à souffrir ».

Avec la technologie et les plateformes, le clonage de célébrités et la location de voix peuvent constituer une chaîne industrielle, qui est également une manifestation de la technologie transcendant les contraintes physiques et spatio-temporelles.

L'avenir de tout le monde ayant une "voix remplaçante" est-il loin ?

Certes, le clonage de la voix n'a rien de nouveau, mais il nécessite toujours un processus de plus en plus réel et facile, et il est loin d'être terminé.

Les clones de voix deviennent de plus en plus populaires dans les coins que nous pouvons voir ou non, pas seulement un jeu pour quelques personnes comme des célébrités, des stars, etc.

En 2017, la startup canadienne d'intelligence artificielle Lyrebird a développé une technologie de synthèse vocale, affirmant que son algorithme peut cloner la voix de n'importe qui avec un échantillon audio d'une minute.

▲ Oiseau-lyre.

1 minute est un nombre incroyable. Le projet VoCo d'Adobe à l'époque nécessitait au moins 20 minutes d'échantillon audio.

Dans l'exemple donné par Lyrebird, Hillary, Clinton et Trump ont parlé et ri ensemble, souhaitant à Lyrebird un avenir radieux ensemble. Leurs voix et leurs intonations sont encore quelque peu différentes de celles des personnes réelles, et le sens mécanique est légèrement lourd, mais cela suffit à faire briller les yeux des gens.

Lyrebird dit que générer des empreintes vocales nécessite une puissance de calcul considérable, mais une fois cela fait, produire de la parole est facile, créant mille phrases en moins d'une demi-seconde.

C'est comme une prophétie : franchissez le seuil de la réalité et de la machinerie, et alors tout ira bien.

En plus de nécessiter moins d'échantillons audio, le clonage vocal est déjà intégré aux outils créatifs à portée de main.

▲Description.

Descript, une société américaine d'édition audio et vidéo, a développé une fonction d'édition de podcast "Overdu", qui peut cloner la voix du créateur, et le créateur peut saisir les mots dont il a besoin pour générer un nouvel audio avec la voix d'origine, ce qui est pratique pour rapidement modifier des podcasts.

Mais c'est aussi loin d'être parfait. Un journaliste de The Verge a constaté que, d'une part, pour former l'IA, beaucoup d'audio doit être pré-enregistré ; d'autre part, l'audio généré manque d'émotion et de cadence, mais il sonne comme lui-même, ce qui est étrange et inexplicablement familier.

Alors que les startups surgissent partout, les grandes entreprises technologiques ont beaucoup accumulé.

Lors de la conférence re:MARS d'Amazon en juin, le scientifique en chef d'Amazon, Rohit Prasad, a déclaré qu'Amazon développait une technologie qui permettrait à son assistant intelligent Alexa d' imiter la voix de n'importe qui avec moins d'une minute d'audio .

▲ Image tirée de : techcrunch

N'importe qui, bien sûr, inclut les parents décédés. Amazon a également fait une démonstration connexe : un enfant a dit à Alexa d'écouter l'histoire du coucher "Le magicien d'Oz", et le son sortant du haut-parleur n'était pas le son mécanique habituel, mais la voix d'une grand-mère décédée.

Amazon n'a pas révélé plus de détails sur les nouvelles fonctionnalités d'Alexa, mais la technologie sous-jacente existe depuis plusieurs années.

Il est prévisible que bien que les clones de voix ne puissent pas véritablement remplacer les voix humaines, ils seront largement utilisés, tels que les livres audio, les assistants vocaux, les jeux vidéo, etc.

Sonantic a dit un jour : "Ce que CGI (imagerie générée par ordinateur) fait pour la vision est ce que Sonantic fait pour l'audio." Chacun a sa propre "voix double", et elle peut être à portée de main.

De l'autre côté de la médaille, nous sommes prudents sur les "voix doubles".

▲ Image de : Face2Face

Après tout, les mensonges politiques et la pornographie de Deepfake ont causé beaucoup d'effets négatifs, il n'est donc pas difficile d'imaginer à quoi servira le modèle vocal. Sans contrôle, nous aurons un avenir où les photos peuvent être truquées et les enregistrements audio peu fiables.

Il y a quelques mois, Microsoft a publié de nouvelles règles d'éthique en matière d'IA qui restreindront sévèrement qui peut créer des voix synthétiques, comment elles peuvent être utilisées et superposeront les voix artificielles avec un "filigrane" qui empêchera les abus.

Respeecher, qui se consacre à "Star Wars", a un jour sorti un court métrage "1969" dans lequel le président annonçait une catastrophe à grande échelle sur la Lune. Cela semble très "vrai", mais tout est faux.

Le clip se termine par un rappel : "Ce projet utilise une gamme de technologies, y compris le remplacement du dialogue vidéo, les systèmes de voix off et le montage vidéo plus traditionnel, pour montrer à quoi peut ressembler la désinformation. Veuillez vérifier vos sources."

Ainsi, Respeecher n'essaie pas de prouver que les nouvelles et l'histoire peuvent être manipulées.

Au contraire, ils veulent sensibiliser les gens à l'existence et à l'utilité de la technologie, ainsi qu'à ses limites et à sa malveillance. Maintenant que la roue a été avancée et vue davantage, elle peut être mieux réglée et utilisée.

Zhang Chengchen

Li Ruoqiuhuang, pour exorciser le mal. Courriel de travail : [email protected]

boîte aux lettres 8

#Bienvenue pour prêter attention au compte WeChat officiel d'Aifaner : Aifaner (WeChat : ifanr), un contenu plus excitant vous sera apporté dès que possible.

Love Faner | Lien d'origine · Voir les commentaires · Sina Weibo