Sora d’OpenAI ne semble pas changer la donne comme il était censé l’être

L'interprétation de la gymnastique par Sora
OpenAI

OpenAI a teasé et retardé à plusieurs reprises la sortie de Sora pendant près d'un an. Mardi, la société a finalement dévoilé une version entièrement fonctionnelle du nouveau modèle de génération vidéo destinée à un usage public et, malgré le buzz initial, de plus en plus d'utilisateurs précoces de la version ne semblent pas trop impressionnés. Et moi non plus.

La société a présenté Sora pour la première fois en février dernier, acclamé par la critique pour ses rendus vidéo hyperréalistes. "Sora peut générer des vidéos d'une durée maximale d'une minute tout en conservant la qualité visuelle et le respect des invites de l'utilisateur", écrivait OpenAI dans son blog d'annonce à l'époque. "Le modèle comprend non seulement ce que l'utilisateur a demandé dans l'invite, mais aussi comment ces choses existent dans le monde physique."

La société a publié d'autres images générées par Sora en mars,cette fois-ci d'un éléphant fait de feuilles , mettant encore plus en valeur les capacités du modèle. Le programme Sora a ensuite connu une série de retards de développement, que le directeur des produits d'OpenAI, Kevin Weil, a imputé dans une récente AMA Reddit à la « nécessité de perfectionner le modèle, d'assurer la sécurité/l'usurpation d'identité/autres choses et de faire évoluer le calcul ». Dans le même temps, The Information a signalé que les premières itérations de Sora souffraient de performances médiocres et avaient du mal à rester concentré sur les invites de l'utilisateur, nécessitant jusqu'à 10 minutes réelles pour générer un clip d'une minute. Le modèle a également été récemment divulgué en ligne par un groupe de bêta-testeurs mécontents qui se sont opposés aux pratiques de « lavage d'art » d'OpenAI . Cependant, la société a rapidement fait supprimer l'interface utilisateur non autorisée du groupe de Hugging Face en réponse.

Pendant qu'OpenAI peaufinait et affinait les performances de Sora, la concurrence de l'entreprise mangeait son déjeuner. Firefly AI d'Adobe, Gen 3 Alpha de Runway, Movie Gen de Meta et Kling de Kuaishou Technology (sans parler des innombrables options gratuites ) ont proliféré sur Internet l'année dernière, nombre d'entre eux proposant des clips de qualité supérieure et des temps d'inférence plus rapides que ceux proposés. OpenAI l’avait promis à plusieurs reprises.

Mardi, OpenAI a officiellement dévoilé la version prête pour la production de Sora et l'a publiée pour ses abonnés Plus à 20 $ par mois et Pro à 200 $ par mois (mdr). Ou du moins, l’entreprise l’a fait pendant quelques heures. Comme l'a noté le commentateur technologique Ed Zitron sur Bluesky mercredi , « quelques heures seulement – ​​peut-être même moins – après avoir annoncé que Sora était absent, OpenAI a cessé d'accepter de nouveaux enregistrements de compte sans calendrier clair. OpenAI a appâté et commuté l'ensemble des médias technologiques. Cette entreprise ne peut en aucun cas se permettre de mettre son générateur vidéo à la disposition du public.

Pour ceux qui ont réussi à y accéder, les vidéos que Sora a réussi à générer étaient loin d’être impressionnantes. Comme l'a souligné Marques Brownlee, personnalité de YouTube, lors de sa vidéo pratique avec le modèle, il fallait plusieurs minutes pour générer un seul clip de 20 secondes en résolution 1080p et il était très difficile de générer les jambes d'un sujet et leurs mouvements, avec l'avant et l'arrière. les pattes arrière échangent anormalement leurs positions tout au long du clip. Il suffit de regarder la vidéo générée ci-dessous d'un gymnaste échangeant ses bras, ses jambes et sa tête à la volée alors qu'ils dégringolent sur un tapis pour voir ce qu'il voulait dire.

voici une vidéo de gymnastique générée par Sora

— Peter Labuza (@labuzamovies.bsky.social) 2024-12-11T17: 35: 23.989Z

L'utilisateur de Bluesky, Peter Labuza, qui a posté la vidéo de gymnastique, n'a pas hésité à critiquer le modèle en déclarant : "Je suis désolé, mais si vous créez un générateur de texte en vidéo et que vous lui dites "faites courir un chat à travers un champ" et vous lui donnez l'image de départ, et le chat se tient simplement debout, votre générateur ne fonctionne pas. "

L'utilisateur de Bluesky, Chris Offner, partageait une opinion similaire, notant sarcastiquement que "Sora est un moteur physique basé sur des données" tout en partageant un clip absolument dingue d'un skieur défiant la plupart, sinon la totalité, des lois connues de la physique.

The Verge a également testé le modèle, déplorant le fait qu'il ne pouvait toujours pas éviter les inclusions disgracieuses comme « des membres supplémentaires ou des objets déformés ».

« Sora est un moteur physique basé sur les données. "x.com/chrisoffner3…

— Chris Offner (@chrisoffner3d.bsky.social) 2024-12-10T12:42:53.674Z

Remarquez que tout le monde ne détestait pas Sora à vue. L'utilisateur de X, Nathan Shipley, a présenté la fonction « remix » du modèle, qui permet aux utilisateurs de masquer une vidéo générée aux mouvements des objets dans un échantillon téléchargé. Dans ce cas, il a fait bouger la tête d'une grue générée de la même manière qu'une paire de ciseaux qu'il s'est filmé en train de tenir.

On ne sait pas encore quand la société sera en mesure de rouvrir de manière fiable les inscriptions aux comptes pour les utilisateurs Sora intéressés. Reste également à savoir si OpenAI pourra courtiser Hollywood avec Sora dans son état actuel, comme Runway l'a récemment fait avec Gen 3 et Lionsgate .

Une chose reste sûre, OpenAI, malgré son avance initiale dans le boom de l'IA, est rapidement dépassé par le reste de l'industrie, et des versions de produits médiocres comme celle que nous venons de voir avec Sora ne feront que nuire davantage à la réputation de l'entreprise.