La nouvelle IA de Google génère des bandes sonores à partir de pixels

18 juin 2024 Hibou Gourou

Un loup hurlant généré par l'IA — Google Esprit Profond

Deep Mind a présenté mardi les derniers résultats de ses recherches vidéo-audio sur l'IA générative. Il s'agit d'un nouveau système qui combine ce qu'il voit à l'écran avec l'invite écrite de l'utilisateur pour créer des paysages sonores synchronisés pour un clip vidéo donné.

L'IA V2A peut être associée à des modèles de génération vidéo comme Veo, a écrit l'équipe audio générative de Deep Mind dans un article de blog, et peut créer des bandes sonores, des effets sonores et même des dialogues pour l'action à l'écran. De plus, Deep Mind affirme que son nouveau système peut générer « un nombre illimité de bandes sonores pour n'importe quelle entrée vidéo » en réglant le modèle avec des invites positives et négatives qui encouragent ou découragent respectivement l'utilisation d'un son particulier.

Voitures V2A

Le système fonctionne en encodant et en compressant d'abord l'entrée vidéo, que le modèle de diffusion exploite ensuite pour affiner de manière itérative les effets audio souhaités à partir du bruit de fond en fonction de l'invite de texte facultative de l'utilisateur et de l'entrée visuelle. Cette sortie audio est finalement décodée et exportée sous forme de forme d'onde qui peut ensuite être recombinée avec l'entrée vidéo.

La meilleure partie est que l'utilisateur n'a pas besoin d'entrer et de synchroniser manuellement (lire : fastidieusement) les pistes audio et vidéo, car le système V2A le fait automatiquement. "En s'entraînant sur la vidéo, l'audio et les annotations supplémentaires, notre technologie apprend à associer des événements audio spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou les transcriptions", a écrit l'équipe Deep Mind.

Le système n’est cependant pas encore au point. D'une part, la qualité audio de sortie dépend de la fidélité de l'entrée vidéo et le système se déclenche lorsque des artefacts vidéo ou d'autres distorsions sont présents dans l'entrée. Selon l'équipe Deep Mind, la synchronisation des dialogues avec la piste audio reste un défi permanent.

"V2A tente de générer de la parole à partir des transcriptions d'entrée et de la synchroniser avec les mouvements des lèvres des personnages", a expliqué l'équipe. « Mais le modèle de génération vidéo couplée ne peut pas être conditionné aux transcriptions. Cela crée un décalage, entraînant souvent une étrange synchronisation labiale, car le modèle vidéo ne génère pas de mouvements de bouche correspondant à la transcription.

Le système doit encore subir « des évaluations et des tests de sécurité rigoureux » avant que l’équipe envisage de le rendre public. Chaque vidéo et bande sonore générées par ce système seront apposées avec les filigranes SynthID de Deep Mind. Ce système est loin d’être la seule IA génératrice d’audio actuellement sur le marché. Stability AI a lancé un produit similaire la semaine dernière tandis qu'ElevenLabs a publié son outil d'effets sonores le mois dernier.