Préparez-vous : les GIF générés par l’IA pourraient bientôt arriver

21 avril 2023 Hibou Gourou

Avec les chatbots etles générateurs de texte en image qui prennent d'assaut Internet, la prochaine frontière de l'IA pourrait être les générateurs de texte en vidéo.

Nvidia a récemment publié un article de recherche intitulé "High-Resolution Video Synthesis with Latent Diffusion Models" sur ses expériences dans son laboratoire d'IA de Toronto qui détaille comment il utilise Stable Diffusion pour créer un outil capable de créer des résultats d'art en mouvement à partir d'invites de texte.

La société de technologie a présenté des démos des modèles de diffusion latente (LDM), qui utilisent du texte pour générer des clips vidéo sans grande quantité de traitement informatique, a noté TechRadar .

L'outil est capable de générer des images animées de style GIF qui sont des vidéos d'environ 4,7 secondes à une résolution de 1 280 x 2 048. Il est également capable de créer des vidéos plus longues à une résolution inférieure de 512 x 1024, selon le document de recherche.

Après avoir visionné une démonstration de la technologie, TechRadar a déclaré que l'outil est probablement idéal comme générateur de texte en GIF à ce stade. La publication a noté qu'elle pouvait facilement gérer des invites simples telles qu'un stormtrooper passant l'aspirateur sur la plage ou un ours en peluche jouant de la guitare électrique, haute définition, 4K . Même ainsi, le résultat produisait toujours des artefacts aléatoires et des bavures dans les GIF, comme cela est courant sur d'autres outils d'IA régulièrement utilisés tels que Midjourney .

La publication estime que les vidéos plus longues ont encore besoin d'un peu plus de développement avant d'atteindre les heures de grande écoute, mais estime que Nvidia travaillera rapidement pour préparer la technologie. Ils pourraient bien fonctionner pour les bibliothèques de stock et à des fins similaires.

D'autres entreprises expérimentent des générateurs de texte en vidéo IA. Google a présenté son générateur Phenaki, qui permet des invites plus longues qui produisent des clips de 20 secondes. Une autre startup appelée Runway a annoncé le mois dernier son modèle vidéo de deuxième génération, également basé sur Stable Diffusion. Sa démo de l'invite le soleil de fin d'après-midi furtivement par la fenêtre d'un loft de New York montre comment vous pouvez ajouter de légers effets de mouvement aux images fixes.

Les utilisateurs bénéficieront également de l'ajout de l'IA dans d'autres programmes, tels qu'Adobe Firefly et Adobe Premiere Rush, selon TechRadar.

Certaines autres sociétés, telles que Narakeet et Lume5 , se présentent comme ayant des générateurs de texte en vidéo. Cependant, bon nombre de ces outils fonctionnent davantage comme des présentations PowerPoint, rassemblant du texte, de l'audio, des images et peut-être des clips vidéo déjà produits avec des invites, au lieu de générer une œuvre unique.