Google contre-attaque avec une réponse au lancement de Sora d’OpenAI

16 décembre 2024 Hibou Gourou

La division DeepMind de Google a dévoilé lundi son modèle de génération vidéo Veo de deuxième génération, capable de créer des clips d'une durée maximale de deux minutes et à des résolutions atteignant la qualité 4K, soit six fois la durée et quatre fois la résolution des clips de 20 secondes/résolution 1080p. Sora peut générer.

Bien entendu, ce sont les limites supérieures théoriques de Veo 2. Le modèle n'est actuellement disponible que sur VideoFX, la plateforme de génération vidéo expérimentale de Google, et ses clips sont limités à huit secondes et à une résolution de 720p. VideoFX est également sur liste d'attente, donc n'importe qui ne peut pas se connecter pour essayer Veo 2, bien que la société ait annoncé qu'elle étendrait l'accès dans les semaines à venir. Un porte-parole de Google a également indiqué que Veo 2 serait disponible sur la plateforme Vertex AI une fois que l'entreprise serait en mesure de faire évoluer suffisamment les capacités du modèle.

"Au cours des prochains mois, nous continuerons à itérer en fonction des commentaires des utilisateurs", a déclaré Eli Collins à TechCrunch , "et [we'll] chercher à intégrer les capacités mises à jour de Veo 2 dans des cas d'utilisation convaincants à travers l'écosystème Google… Nous prévoyons de partagez plus de mises à jour l’année prochaine.

Aujourd'hui, nous annonçons Veo 2 : notre modèle de génération vidéo de pointe qui produit des clips réalistes et de haute qualité à partir d'invites de texte ou d'images.
Nous publions également une version améliorée de notre modèle texte-image, Imagen 3 – disponible pour utilisation dans ImageFX via… pic.twitter.com/h6ejHaMUM4
— Google DeepMind (@GoogleDeepMind) 16 décembre 2024

Veo 2 aurait un certain nombre d'avantages par rapport à ses prédécesseurs, notamment une meilleure compréhension de la physique (pensez à une meilleure dynamique des fluides et de meilleurs effets d'éclairage/d'ombre) ainsi que la capacité de générer des clips vidéo « plus clairs », dans la mesure où les textures et les images générées sont plus net et moins sujet au flou lors du déplacement. Le nouveau modèle offre également des commandes de caméra améliorées, permettant à l'utilisateur de positionner l'objectif de la caméra virtuelle avec une plus grande précision qu'auparavant.

Comme le note TechCrunch, Veo 2 n'a pas encore perfectionné le processus de génération vidéo, même s'il semble beaucoup moins halluciner que ses rivaux comme Sora , Kling , Movie Gen ou Gen 3 Alpha . "La cohérence et l'homogénéité sont des domaines de croissance", a déclaré Collins. « Veo peut adhérer systématiquement à une invite pendant quelques minutes, mais [il ne peut pas] adhérer à des invites complexes sur de longs horizons. De même, la cohérence des personnages peut être un défi. Il est également possible de s'améliorer en générant des détails complexes, des mouvements rapides et complexes, et en continuant à repousser les limites du réalisme.

Google a également annoncé lundi des améliorations apportées à Imagen 3 , permettant au modèle commercial de génération d'images de créer des sorties « plus lumineuses et mieux composées ». Le modèle, disponible sur ImageFX, proposera également des suggestions descriptives supplémentaires basées sur des mots-clés dans l'invite de l'utilisateur, chaque mot-clé générant un menu déroulant de termes associés.