Un court métrage de cinéma et de télévision a été réalisé en 10 secondes, et le corps principal du mouvement de caméra sophistiqué est toujours clair. Ce nouveau modèle vidéo domestique est stable.

29 septembre 2024 Hibou Gourou

Le morceau de Vincent Video devient de plus en plus vivant. Il est mis à jour toutes les deux semaines et itéré chaque mois, ce qui est presque trop chargé en tant que mannequin. C'est vraiment facile à rouler. Le modèle de génération vidéo de Doubao apporte un nouveau modèle de diffusion, qui montre un réalisme et des détails réalistes au niveau du cinéma et de la télévision pour des scènes hautement dynamiques et complexes. Utilisez une phrase pour décrire l’effet : très fort, très explosif, je n’en crois pas mes yeux.

Le 24 septembre, le Volcano Engine AI Innovation Tour 2024 s'est déroulé à Shenzhen et a publié un nouveau modèle de génération vidéo, qui a largué deux bombes pour l'ensemble de la piste vidéo AI à la fois : Doubao Video Generation-PixelDance, Doubao Video Generation-Seaweed Deux grands modèles.

En tant que l'un des premiers fabricants de modèles de base à grande échelle en Chine à réussir l'enregistrement de l'algorithme, il n'est pas surprenant qu'il soit entré dans la piste de Vincent Video. Cela donne même envie aux gens de l'attendre : comment peut-il être roulé autrement ? Après avoir participé au test réel de ce puissant modèle domestique, nous avons constaté que sa puissance ne réside certainement pas seulement dans la génération d'images, mais qu'elle possède également une écologie et une vision plus larges.

Des avancées importantes dans la compréhension et la cohérence sémantique, maîtrisant parfaitement le langage lens

La « magie » de la vidéo générative vient de la « magie ».

En d’autres termes, la capacité de compréhension sémantique du modèle constitue la base. Ce n'est qu'en comprenant précisément le contenu textuel de l'invite que l'image attendue peut être correctement présentée – la « compréhension écrite » doit d'abord être comprise.

Cette fois, APPSO a participé à un test interne et a obtenu des résultats remarquables – encore une fois, très forts et explosifs.

▲ invite : Un chaton portant un tablier et des gants fait la vaisselle dans un seau rempli de mousse. Au-dessus se trouve un robinet qui distribue de l'eau.

Chaque élément indiqué par l'invite a été reflété, et il n'y a pas de « question manquante ». Le seul problème est : c'est trop beau – mon chat natif n'a pas un tempérament aussi haut de gamme.

Oubliez ça, qu'est-ce qu'un chaton pourrait faire de mal ? Du point de vue de l'imagerie, les détails de la mousse et du débit d'eau sont très étonnants, et l'expression fière du chat est également très vivante.

Un petit détail : l'eau tombe sur le dessus de la tête du chaton, puis tombe du dos et du menton. Ce détail est conforme aux lois de la physique et suffit à montrer la puissante capacité de compréhension du modèle. Des performances similaires peuvent également être observées lors de la démonstration officielle.

▲Démo officielle

La restauration des cheveux en désordre dans le vent reflète non seulement les cheveux flottants, mais aussi la direction est cohérente avec le rythme des mouvements du personnage, ce qui est cohérent avec la logique physique.

Cette capacité haute fidélité provient de la compréhension et de l'accumulation technique de la création vidéo par Douyin et Jianying, grâce à un taux de compression élevé auto-développé et à des modèles d'encodage et de décodage vidéo à état caché à haute capacité de restauration, elle garantit fortement l'encodage efficace du modèle de diffusion. opération.

▲ invite : Dans une forêt aux arbres denses, regardez le ciel. Le ciel est couvert de feuilles denses et le soleil brille à travers les interstices entre les feuilles. Angle de prise de vue vers le haut, fort contraste entre la lumière et l'obscurité

Le vert est un ton très délicat. Si vous l'ajustez bien, il aura l'air rétro et frais, mais si vous ne l'ajustez pas correctement, le ton s'éteindra. Ici, l'effet d'ouverture formé par la réfraction de la lumière à travers les feuilles et les branches vertes est restitué avec précision, ce qui est proche de celui de l'objectif.

Il faut dire qu'après un peaufinage répété et une itération continue de scénarios commerciaux tels que le montage vidéo et l'IA Jimeng, le modèle de génération vidéo Doubao possède véritablement des capacités de disposition de la lumière et des ombres et des couleurs de niveau professionnel, prenant en charge l'animation 3D, l'animation 2D, le chinois. peinture, divers styles tels que le noir et blanc, l'empâtement et, plus important encore, la maîtrise du langage de l'objectif.

Mouvements de caméra sympas, peu importe la façon dont les mouvements changent, le protagoniste reste stable

L’importance du langage des lentilles ne peut être surestimée à plusieurs reprises. Personne ne veut passer beaucoup de temps seul à créer un PPT dynamique.

Cependant, pour les utilisateurs ordinaires, il n'est pas nécessaire de suivre un cours de formation sur le « langage de l'objectif » : Doubao Video Generation Model a préparé une série de solutions de fonctionnement de l'objectif, du zoom, surround, panoramique, zoom, suivi de cible et autres super Multi. -le langage de l'objectif peut être complété à l'aide d'une invite pour obtenir un contrôle flexible de la perspective.
Cela semble facile, mais ce n’est pas simple à mettre en œuvre : la cohérence est un grand défi.

Le modèle comprend les instructions, génère le sujet, puis conçoit les changements et les trajectoires d'action du sujet en fonction des exigences de l'objectif. Dans cette série d'étapes, non seulement le visage du sujet doit être « inchangé », mais également le sujet doit l'être. "variable" de façon appropriée selon les mouvements et les angles.

▲invite : un border collie portant une combinaison spatiale court sur la surface de la lune, sautant et poursuivant un disque volant dans les airs. Le clair de lune illumine sa fourrure sous un angle oblique, faible angle, qualité 4k, ralenti

Lorsque le chiot a bondi, sa tête et ses membres n'étaient pas trop déformés, il était stable et se sentait à l'aise.

▲ invite : Musk se tenait dans la rizière, se penchant pour planter du riz, portant un chapeau de paille sur la tête. Après avoir levé la tête, il a levé la main pour saluer la caméra.

Pendant les dix secondes où il a parlé à la caméra, l'expression, les bras et la posture de Musk ont tous changé avec ses mouvements, mais le tout ne s'est pas effondré et la série de mouvements a été très fluide.

Face à ce défi du « changement » et de « l'immuabilité », la cohérence du sujet est presque parfaitement garantie, et la performance est vraiment puissante.

Le même principe s’applique lors du changement d’objectif. Dans la démo officielle, il y a un segment sous-marin impressionnant.

▲Démo officielle

Avec un simple zoom de l'objectif, ce que le modèle doit accomplir est le suivant : il doit y avoir des détails exquis à l'avant, puis le sujet se déplace pour révéler un nouveau sujet, et enfin il s'installe sur le nouveau sujet, et tout le mouvement est terminé. en une seule fois.

En plus de ses performances constantes exceptionnelles et de ses étonnantes capacités de mouvement de caméra, il prend naturellement également en charge une variété de styles, tels que la 3D, l'animation 2D, l'empâtement, la bande dessinée, etc., ainsi qu'une variété d'options de ratio, offrant aux utilisateurs des choix extrêmement libres. .

▲Démo officielle

▲ invite : La belle ville enneigée de Tokyo est animée. La caméra se déplace dans une rue animée de la ville, suivant plusieurs personnes profitant du beau temps enneigé et faisant leurs achats dans les stands à proximité. De magnifiques pétales de sakura volent dans le vent avec des flocons de neige.

▲ invite : à une intersection de Hong Kong la nuit, les voitures et les bus passent rapidement, formant des lignes fluides. Il y a des piétons qui attendent le feu tricolore. Les bâtiments en arrière-plan sont flous, formant des points lumineux, faible angle, qualité 4k

Du « haut de gamme » au « facile à mettre en œuvre »

Bien que le modèle de génération vidéo Doubao vient tout juste d'arriver aux utilisateurs, la technologie qui le sous-tend est perfectionnée depuis longtemps. Selon un rapport technique publié par ByteDance Research en novembre de l'année dernière, l'équipe Byte a combiné les instructions de la première et de la dernière image avec des instructions de texte. L'instruction de la dernière image s'est avérée être un élément clé dans la création de scènes ou d'actions complexes.

De plus, à cette époque, Byte a choisi la voie autorégressive au lieu de la méthode hiérarchique pour obtenir des capacités de performances d'image de haute stabilité. La considération derrière cela est que le modèle doit garantir que le contenu généré est cohérent avec les attentes des utilisateurs. Ce n'est qu'ainsi que les utilisateurs participeront activement au processus de génération et joueront le rôle de « directeur », afin que de puissantes capacités du modèle puissent être mises en œuvre dans. applications pratiques dans les plus brefs délais.

Par rapport à des produits similaires (hors contrats à terme), le modèle de génération vidéo de Doubao est complètement au premier niveau. Comparé aux produits étrangers, tels que Luma et Runway, il comprend mieux les utilisateurs chinois et chinois et est plus adapté au flux de travail créatif sur l'Internet chinois.

▲Démo officielle

Avec des performances aussi excellentes, il est inévitable de se démarquer. Cela ne concerne pas seulement le modèle de génération vidéo, mais toute la famille des grands modèles Doubao : en tant que l'un des premiers grands modèles en Chine à réussir l'enregistrement de l'algorithme, le grand modèle Doubao fournit des services aux entreprises via Volcano Engine et Volcano Ark.

En septembre, l'utilisation quotidienne moyenne des jetons du modèle linguistique Doubao dépassait 1,3 billion, soit une multiplication par dix par rapport à sa première publication en mai.

Afin de fournir les performances les plus élevées, Doubao Universal Model Pro prend en charge par défaut un tpm initial de 800K. On peut voir que ce nombre dépasse de loin le meilleur niveau du secteur et peut être encore étendu en fonction des besoins réels, aidant ainsi les grandes entreprises. pour fonctionner en toute sécurité à grande échelle dans un environnement de production.

Bien que ses capacités techniques soient si solides, dans une comparaison des prix des versions les plus puissantes de divers grands modèles, le grand modèle de Doubao est inférieur de plus de 98 % au prix de l'industrie – le seuil d'utilisation de l'IA a été plus bas que jamais.

Plus la technologie est avancée, plus elle doit être mise en œuvre et intégrée dans la vie quotidienne.

Dans les scénarios commerciaux réels, ce qu’il faut, ce sont de bons résultats, une rapidité et une facilité d’utilisation. En prenant le commerce électronique comme exemple, il faut tenir compte à la fois des nœuds de commercialisation et des effets d'affichage des différentes plateformes. Ce qu'il faut, c'est une méthode de production flexible et rapide.

Qu'il s'agisse de tournage publicitaire, de courtes vidéos, de commerce électronique en direct ou d'autres domaines, des outils simples et faciles à utiliser doivent être intégrés dans le processus de production existant.

Lors de la conférence de presse du 24, le président de Volcano Engine, Tan Dai, a également présenté une série d'applications de modèles à grande échelle, en particulier des cas réellement mis en œuvre dans des scénarios d'utilisation commerciale.
Grâce aux services de grands modèles full-stack, Huoshan Engine intègre véritablement la force des grands modèles Doubao dans des scénarios commerciaux réels. Depuis cette année, Volcano Engine a créé la Retail Large Model Ecological Alliance, l'Automobile Large Model Ecological Alliance et la Smart Terminal Large Model Alliance, couvrant une grande variété d'entreprises et de scénarios.

Des modèles plus solides, des prix plus bas et une mise en œuvre plus facile sont sans aucun doute les avantages importants des grands modèles de poufs.

"Modèle plus fort" Inutile de dire que le grand modèle Doubao peut prendre en charge l'utilisation de plus d'un billion de jetons chaque jour. Grâce aux plus de 50 pratiques commerciales internes de ByteDance et aux applications de plus de 30 clients du secteur, le nombre croissant d'appels couvre de plus en plus de scènes. . Tout en recevant davantage de commentaires des entreprises, cela aide également le modèle Baoda à devenir meilleur et plus complet.

Lors de la conférence de presse, Tan Dai a déclaré : « Le coût d'application des grands modèles a été bien résolu. Les grands modèles doivent passer du prix de volume aux performances de volume, avec de meilleures capacités et services de modèle.

"L'application de scénarios commerciaux est quelque chose que Doubao·Video Generation Model envisage depuis le début. Elle nécessite une percée dans la valeur commerciale pour être mieux appliquée." Tan Dai a déclaré : "Nous en avons fait assez dans divers scénarios. L'adaptation, cela." permet à chacun de véritablement innover et d'accélérer ses activités grâce au modèle de génération vidéo beanbao dans un environnement commercial.

Les passionnés peuvent commencer à explorer le monde de l’IA grâce à des produits C-end à bas seuil. Les développeurs peuvent utiliser Volcano Engine pour mettre en œuvre le travail d'IA de manière moins coûteuse, plus diversifiée et plus flexible, et fournir à une base d'utilisateurs plus large de nouveaux produits et contenus pour une exploration plus approfondie.

Lors de la séance de questions-réponses qui a suivi avec les journalistes, il a également expliqué qu'à mesure que la technologie continue d'évoluer et de progresser, lorsque l'IA peut résoudre complètement un problème, la différence entre toB et toC n'est peut-être pas si grande.

Ce sera peut-être le spectacle le plus spectaculaire de l’ère de l’IA : des barrières initialement inaccessibles sont renversées. Peu importe que vous ayez de l'expérience ou non, que ce soit pour l'autonomisation des affaires ou pour votre propre divertissement, tant que vous vous lancez, vous créerez des miracles.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo