Lumière domestique de la vidéo IA, cette nouvelle fonction libère totalement les mains des cartes à piocher

10 janvier 2025 Hibou Gourou

Vous n'êtes pas satisfait après avoir regardé "Squid Game" ? Créez simplement votre propre fin.

Vous ne voulez pas attendre le troisième volet de « Dune » ? Faites-en un vous-même.

Dans le passé, il aurait fallu beaucoup de temps pour empêcher ces acteurs de se déformer et de s’effondrer. Il ne vous reste plus qu'à envoyer une capture d'écran à l'IA et vous pouvez commencer à créer des films.

Il s'agit de la fonction « référence du sujet » lancée par Conch AI. Elle est prise en charge par le nouveau modèle S2V-01 et peut identifier avec précision le sujet dans l'image téléchargée et le définir comme personnage dans la vidéo générée. Le reste peut être utilisé à votre guise avec des instructions simples et rapides.

▲Création de l'utilisateur X @KarolineGeorges, les informations faciales sont conservées avec précision

▲Création de l'utilisateur X @Apple_Dog_Sol, présentant plusieurs sujets

Pourquoi « Référence du sujet » est-il si génial ?

En fait, de nombreux fabricants assurent la fonction de « référence au sujet ». Mais tout le monde ne peut pas surmonter les difficultés liées à cette fonction : stabilité, cohérence et cohérence du mouvement.

D’autres ne le pourront peut-être pas, mais Conch AI le peut. Avec une seule image, vous pouvez comprendre avec précision les caractéristiques des personnages, les identifier en tant que sujets, puis faire apparaître les personnages dans diverses scènes et environnements.

Spider-Man, qui sauvait le monde une seconde, conduisait une moto la seconde suivante.

La mère dragon qui était censée entraîner le dragon dans Game of Thrones taquinait maintenant le petit loup.

Le progrès révolutionnaire de "Main Reference" consiste à atteindre l'équilibre parfait entre liberté de création et réduction. C'est comme donner au créateur un « acteur universel ». L'apparence de l'acteur ne s'effondrera pas, mais peut changer naturellement avec les mouvements et les postures. Il peut également effectuer n'importe quelle action dans n'importe quelle scène selon les exigences du réalisateur.

Non seulement de nouvelles fonctionnalités, mais aussi des solutions techniques uniques

Le sentiment de la mesure réelle est le suivant : la référence principale est une fonction complètement différente, qui est différente des effets obtenus par Vincent et Tusheng. Les difficultés techniques impliquées sont différentes et les exigences en matière d'idées techniques sont également différentes.

Les vidéos Tusheng traditionnelles animent uniquement des images statiques et apportent principalement des changements locaux. Prenez cette image de Song Hye Kyo comme exemple. Tu Sheng vient de transformer l'image statique originale en une image dynamique, et la portée est limitée et il n'y aura pas de grands mouvements.

▲ Images fixes originales

▲ Film basé sur la vidéo Tusheng

Pour la même photo, la « référence du sujet » peut former un fragment complet basé sur le texte de l'invite. Même si les mouvements sont libres, les traits du visage sont toujours réalisés de manière stable.

▲ Invite : éclairage intérieur chaleureux. Dans la salle du théâtre, le protagoniste porte un costume noir et est assis dans la rangée du milieu à gauche. Son expression est pleine de concentration, et elle affiche parfois un sourire détendu, en frappant dans ses mains, et ses mouvements sont naturels et rythmés. La caméra part du côté du protagoniste, capturant les silhouettes des autres spectateurs autour d'elle et la texture terne des sièges, soulignant la sensation de stratification de l'environnement. Au fur et à mesure que la caméra avance, le protagoniste se lève.

Il existe actuellement deux voies techniques pour générer des vidéos basées sur des personnes. L’un est basé sur la technologie LoRA pour effectuer des réglages précis sur des modèles génératifs à grande échelle pré-entraînés. LoRA nécessite beaucoup de calculs lors de la génération de nouvelles vidéos. Cela oblige les utilisateurs à télécharger du matériel sur le même sujet et sous des angles différents, et même à préciser les différents éléments dont un seul clip doit disposer pour garantir la qualité de la production. Dans le même temps, cela nécessite également une consommation importante de jetons et un long temps d’attente.

Sur la base d'une grande quantité d'exploration technique, MiniMax a choisi une voie technique basée sur la référence d'images : les images contiennent les informations visuelles les plus précises, à partir des images, et se conformant à la logique créative de la prise de vue physique. Dans ce parcours technique, le protagoniste de l'image est la première priorité que le modèle doit identifier parmi toutes les informations visuelles – quelle que soit l'image qui apparaît ensuite ou quelle que soit l'intrigue, le sujet doit rester cohérent.

Les autres informations visuelles sont plus ouvertes et contrôlées par des invites textuelles. De cette façon, l'objectif de génération de « restauration précise + degré élevé de liberté » peut être atteint.

▲Dans la clairière de la vallée, le protagoniste se tient devant le dragon géant, ses longs cheveux flottant au vent. La caméra zoome progressivement pour capturer l'action du protagoniste se retournant et regardant au loin. Les ailes du dragon déployées, soufflent sur les cheveux et la jupe du protagoniste. L'image se termine finalement par une prise de vue aérienne.

Dans cette vidéo, seule une photo de Dragon Mother a été envoyée au modèle. Dans la vidéo finale, le modèle a présenté avec précision le langage de l'objectif et les éléments d'image impliqués dans l'invite, démontrant sa forte capacité de compréhension.

Par rapport à la solution LoRA, la voie technique de référence d'image peut visiblement réduire le matériel téléchargé par les utilisateurs, et des dizaines de vidéos sont transformées en une seule image. Dans le même temps, le temps d'attente est calculé en secondes, ce qui n'est pas très différent du temps nécessaire pour générer du texte et des images – il a la précision de la vidéo Tusheng et la liberté de la vidéo Vincent.

L'éclairage domestique peut satisfaire vos « désirs et besoins »

"Avoir les deux" n'est pas une demande excessive. Ce n'est qu'en obtenant à la fois une cohérence précise et une libre circulation des personnages que le modèle pourra dépasser le cadre de la vie et de la réalisation de croquis et avoir une valeur d'usage plus large dans les scénarios d'application industrielle.

Par exemple, dans la publicité d'un produit, une image de modèle peut générer directement des vidéos pour plusieurs produits, et cela peut être réalisé en modifiant simplement l'invite.

S'il est implémenté à l'aide de Tusheng Video, la solution courante actuelle consiste à définir la première et la dernière image, et les effets pouvant être obtenus sont également limités par les images existantes. Dans le même temps, vous devez piocher des cartes à plusieurs reprises, collecter différents angles et enfin assembler les matériaux pour compléter une série de plans longs.

Combinant les caractéristiques de différentes technologies, il s'inscrit davantage dans le workflow de création vidéo, ce qui constitue l'avantage du « Sujet Référence ». À l'avenir, plus de 80 % des praticiens du marketing utiliseront des outils génératifs dans différents liens. Ils n'auront qu'à se concentrer sur la conception de l'histoire et de l'intrigue, libérant ainsi leurs mains pour tirer des cartes.

Les statistiques de Statista montrent que la taille du marché des produits d'IA générative dans le marketing publicitaire dépassera 15 milliards de dollars en 2021. D’ici 2028, ce chiffre atteindra 107,5 milliards de dollars. Dans le flux de travail précédent, les vidéos purement Vincent étaient trop incontrôlables et pouvaient donc être utilisées dès les premières étapes de la création. L'IA générative est devenue très courante dans le secteur de la publicité et du marketing en Europe et aux États-Unis, avec 52 % de ses cas d'utilisation dans la première rédaction et la planification, et 48 % dans le brainstorming.

À l'heure actuelle, Conch AI ouvre d'abord la capacité de référence pour un seul personnage. À l'avenir, elle s'étendra à des capacités de référence plus riches pour plusieurs personnes, objets, scènes, etc., afin de libérer davantage la créativité. "Tout le monde L'idée est un film à succès."

Depuis la sortie du modèle vidéo de MiniMax en août de l'année dernière, il a continué d'attirer l'attention et l'expérience d'un grand nombre d'utilisateurs étrangers en termes de qualité et de fluidité d'image, de cohérence et de stabilité, y compris de nombreux praticiens ayant une expérience dans la création d'images. beaucoup de retours positifs et de reconnaissance professionnelle.

Dans la compétition technologique de l'année dernière, le paysage concurrentiel dans le domaine de la génération de vidéos IA a initialement émergé. La mise en œuvre de Sora a fait voir le potentiel dans le domaine de la génération vidéo. Par la suite, les grandes entreprises technologiques ont investi des ressources dans ce domaine et ont investi massivement dans la recherche et le développement.

Avec le retard du lancement du produit Sora en fin d'année et la réputation médiocre des essais utilisateurs, celui-ci n'a pas répondu aux attentes du marché. Cela donne également la possibilité à d’autres acteurs de s’emparer du marché.

Aujourd’hui, alors que la vidéo générative est sur le point d’entrer dans sa seconde moitié, seules trois entreprises ont véritablement démontré leur force technique et leur potentiel de développement : Conch AI de MiniMax, Keling AI de Kuaishou et Jimeng AI de ByteDe.

En tant que start-up qui vient d'être créée depuis 3 ans, MiniMax apporte des produits et des technologies capables d'atteindre le niveau T0 avec son organisme de start-up compétent. Du modèle vidéo Tusheng I2V-01-Live en décembre de l'année dernière au nouveau modèle actuel S2V-01, ils résolvent tous les problèmes épineux de la génération vidéo dans le passé.

À mesure que la technologie continue de mûrir et que les scénarios d'application se développent progressivement, l'IA de génération vidéo déclenchera une nouvelle révolution dans la création de contenu, la production cinématographique et télévisuelle, les communications marketing et d'autres domaines. Ces fabricants, qui représentent le plus haut niveau dans le domaine de l'IA de génération vidéo en Chine, non seulement continuent de dominer le marché intérieur, mais devraient également rivaliser avec les géants internationaux à l'échelle mondiale. Dans le même temps, comment garantir la stabilité et la contrôlabilité des produits tout en maintenant l’innovation technologique sera un défi permanent auquel ces entreprises seront confrontées.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo