Meta a créé DALL-E pour la vidéo, et c’est à la fois effrayant et incroyable

30 septembre 2022 Hibou Gourou

Meta a dévoilé un modèle fou d'intelligence artificielle qui permet aux utilisateurs de transformer leurs descriptions dactylographiées en vidéo. Le système s'appelle Make-A-Video et est la dernière tendance en matière de contenu généré par l'IA sur le Web.

Le système accepte de courtes descriptions comme "un robot surfant sur une vague dans l'océan" ou "un poisson clown nageant à travers le récif corallien" et génère dynamiquement un court GIF de la description. Vous avez même le choix entre trois styles de vidéos différents : surréaliste, réaliste et stylisé.

Peinture au pinceau d'un artiste sur une toile en gros plan

Selon un article Facebook du PDG de Meta, Mark Zuckerberg, traduire un texte écrit en vidéo est beaucoup plus difficile en raison de la façon dont la vidéo nécessite du mouvement :

« Il est beaucoup plus difficile de générer des vidéos que des photos, car au-delà de la génération correcte de chaque pixel, le système doit également prédire leur évolution dans le temps. Make-A-Video résout ce problème en ajoutant une couche d'apprentissage non supervisé qui permet au système de comprendre le mouvement dans le monde physique et de l'appliquer à la génération traditionnelle de texte en image.

Un jeune couple marchant sous une pluie battante

L'équipe de recherche sur l'IA de Meta a rédigé un article décrivant le fonctionnement du système et ses différences avec les méthodes actuelles de conversion de texte en image (T2I). Contrairement à d'autres modèles de langage machine, la méthode Text-to-Video (T2V) de Meta n'utilise pas de paires texte-vidéo prédéfinies. Par exemple, il n'associe pas "homme qui marche" à une vidéo d'un homme réel qui marche.

Si cela ressemble beaucoup à DALL-E, l'application T2I populaire, vous ne seriez pas loin. D'autres applications T2I ont été déployées depuis que DALL-E a gagné en popularité. TikTok a publié en août un filtre appelé AI Greenscreen qui génère des images de style peinture en fonction des mots que vous tapez.

Un bébé paresseux moelleux avec un bonnet tricoté orange essayant de comprendre un ordinateur portable en gros plan un écran d'éclairage de studio très détaillé se reflétant dans ses yeux

Le contenu généré par l'IA est devenu très populaire au cours des dernières années. La technologie Deepfake , des techniques d'apprentissage automatique pour remplacer le visage d'une personne par une autre, est même utilisée par les studios d'effets visuels pour des émissions à gros budget comme The Mandalorian .

En juillet, le Times a rapporté par erreur une femme ukrainienne au milieu de la guerre russo-ukrainienne. Le problème est qu'elle n'était pas réelle .

La menace de l'IA n'est probablement pas une menace réelle , mais des projets comme DALL-E et Make-A-Video sont des explorations amusantes de certaines des possibilités intéressantes.