Les nouvelles vidéos réalisées par l’IA d’OpenAI époustouflent les gens

16 février 2024 Hibou Gourou

Une image IA représentant deux mammouths marchant dans la neige, avec des montagnes et une forêt en arrière-plan. — OpenAI

La dernière aventure d'OpenAI dans le domaine de l'IA pourrait être la plus impressionnante à ce jour. Baptisé « Sora », ce nouveau modèle d’IA texte-vidéo vient d’ouvrir ses portes à un nombre limité d’utilisateurs qui pourront le tester. La société l'a lancé en montrant plusieurs vidéos entièrement réalisées par l'IA, et les résultats finaux sont incroyablement réalistes.

OpenAI présente Sora en disant qu'il peut créer des scènes réalistes basées sur des invites textuelles, et les vidéos partagées sur son site Web le prouvent. Les invites sont descriptives, mais courtes ; J'ai personnellement utilisé des invites plus longues en interagissant simplement avec ChatGPT . Par exemple, pour générer la vidéo des mammouths laineux illustrée ci-dessus, Sora avait besoin d'une invite de 67 mots décrivant les animaux, l'environnement et l'emplacement de la caméra.

Présentation de Sora, notre modèle texte-vidéo.
Sora peut créer des vidéos d'une durée maximale de 60 secondes présentant des scènes très détaillées, des mouvements de caméra complexes et plusieurs personnages aux émotions vibrantes. https://t.co/7j2JN27M3W
Invite : « Magnifique, enneigé… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) 15 février 2024

"Sora peut générer des vidéos d'une durée maximale d'une minute tout en conservant la qualité visuelle et le respect des invites de l'utilisateur", a déclaré OpenAI dans son annonce . L'IA peut générer des scènes complexes remplies de nombreux personnages, paysages et mouvements précis. À cette fin, OpenAI indique que Sora prédit et lit entre les lignes selon les besoins.

"Le modèle comprend non seulement ce que l'utilisateur a demandé dans l'invite, mais aussi comment ces choses existent dans le monde physique", a déclaré OpenAI. Le modèle ne s'attaque pas seulement aux personnages, aux vêtements ou aux arrière-plans, mais crée également « des personnages convaincants qui expriment des émotions vibrantes ».

Sora peut également combler les lacunes d'une vidéo existante ou la rendre plus longue, ainsi que générer une vidéo basée sur une image, il ne s'agit donc pas uniquement d'invites textuelles.

Bien que les vidéos soient belles comme des captures d'écran, elles sont à la limite époustouflantes en mouvement. OpenAI a proposé une large gamme de vidéos pour montrer la nouvelle technologie, y compris des rues cyberpunk de Tokyo et des « séquences historiques » de la Californie pendant la ruée vers l'or. Il y a bien plus encore, notamment un très gros plan d'un œil humain. Les invites couvrent tout, des dessins animés à la photographie animalière.

Sora a encore fait quelques erreurs. En regardant de plus près, on constate que, par exemple, certains personnages dans la foule n'ont pas de tête ou bougent étrangement. Le mouvement maladroit s'est démarqué au premier coup d'œil dans certains échantillons, mais l'étrangeté générale a nécessité plusieurs visionnages pour être repérée.

Il faudra peut-être un certain temps avant qu'OpenAI ouvre Sora au grand public. À l’heure actuelle, le modèle sera testé par les équipes rouges qui évalueront les risques potentiels. Certains créateurs pourront également commencer à le tester dès maintenant, alors qu'il en est encore aux premiers stades de développement.

L’IA est encore imparfaite, alors je m’attendais à quelque chose d’assez compliqué. Qu'il s'agisse des faibles attentes ou des capacités de Sora, je repars impressionné, mais aussi légèrement inquiet. Nous vivons déjà dans un monde où il est difficile de distinguer un faux d'un réel, et désormais, ce ne sont pas seulement les images qui sont en danger, les vidéos le sont aussi. Cependant, Sora n'est pas le premier modèle texte-vidéo que nous ayons vu, comme Pika .

D'autres lèvent également le drapeau, comme le célèbre YouTubeur technologique Marques Brownlee , qui a tweeté que « si cela ne vous concerne pas au moins un petit peu, rien ne le fera » en réponse aux vidéos de Sora.

Chacune de ces vidéos est générée par l'IA, et si cela ne vous concerne pas au moins un peu, rien ne le fera.
Le modèle le plus récent : https://t.co/zkDWU8Be9S
(Vous vous souvenez de Will Smith mangeant des spaghettis ? J'ai tellement de questions) pic.twitter.com/TQ44wvNlQw
— Marques Brownlee (@MKBHD) 15 février 2024

Si Sora d'OpenAI est aussi performant aujourd'hui, il est difficile d'imaginer de quoi il sera capable après quelques années de développement et de tests supplémentaires. C’est le genre de technologie qui a le potentiel de supprimer de nombreux emplois – mais, espérons-le, comme ChatGPT, elle coexistera aux côtés des professionnels humains.