La grande mise à jour de Midjourney ! Un autre artefact générateur d’images d’IA qui « suit vos paroles » Vous trouverez ci-joint plus de 10 démonstrations de scènes et tri des défauts

7 avril 2025 Hibou Gourou

PS, qui était autrefois considérée comme une compétence nécessaire, semble désormais se trouver dans une situation délicate de « pouvez-vous l'apprendre ou non ».

La dernière version de Gemini peut changer les images en une seule phrase, ce qui en fait un phénomène. Depuis le lancement de la fonction de génération d'images multimodales de GPT-4o, les images générées de style Ghibli ont balayé Internet presque du jour au lendemain.

Avec la montée de nouvelles forces, le géant vétéran de la génération d’images IA Midjourney n’est pas en reste et vient de sortir officiellement la dernière version V7.

Les points clés de la nouvelle version sont les suivants :

La qualité globale de l'image est améliorée, les invites textuelles sont mieux traitées et la cohérence des détails sur le corps, les mains et divers objets est grandement améliorée.
La couleur de la peau et les détails du visage des personnages sont plus naturels et plus clairs, les textures des matériaux (comme les plumes, les vêtements) sont finement exprimées et les effets d'ombre et de lumière sont réalistes.
Peut mieux comprendre et présenter la scène complète décrite par les mots d'invite, la relation spatiale entre les éléments est raisonnable et l'arrière-plan et le sujet sont hautement intégrés.
Capable de représenter avec précision des angles de vue spécifiques, des styles de prise de vue en contre-plongée et en gros plan pour démontrer son professionnalisme
L'atmosphère et l'expression émotionnelle sont légèrement faibles, manquant de drame et de mystère, et le caractère unique et la créativité de certains styles artistiques font légèrement défaut.

Il est important de noter que la V7 est la première version à activer la personnalisation du modèle par défaut. Les utilisateurs doivent déverrouiller les paramètres de personnalisation pour utiliser cette fonctionnalité. L'ensemble du processus prend environ 5 minutes et peut être activé et désactivé à tout moment.

Un autre point fort de la V7 est le « Mode Draft ». Le coût de ce mode n'est que la moitié de celui du mode standard, mais la vitesse de rendu des images est multipliée par 10.

Lorsqu'elle est utilisée sur le Web, la barre d'invite passe automatiquement en « mode conversation », et les utilisateurs peuvent ajuster directement le contenu via des commandes, telles que remplacer le chat par un hibou ou changer la scène pour la nuit, et le système ajustera automatiquement l'invite et générera une nouvelle image.

Après avoir cliqué sur « Mode brouillon » et activé le bouton du microphone, les utilisateurs peuvent également accéder au « Mode vocal » pour créer en temps réel via des commandes vocales. Si vous devez exécuter explicitement la tâche de brouillon, l'utilisateur peut ajouter le paramètre « -draft » après l'invite, ce qui convient aux scénarios tels que la permutation, la combinaison ou la génération répétée.

Les responsables de Midjourney estiment que le « mode brouillon » est de loin le meilleur moyen de répéter les idées.

Si l'utilisateur est satisfait du brouillon d'image, il peut cliquer sur le bouton « Améliorer » ou « Modifier » pour le restituer avec une qualité optimale. Il convient de noter que la qualité de l'image en mode Brouillon est inférieure à celle du mode Standard, mais son comportement et son esthétique sont très cohérents et adaptés à une vérification rapide des idées.

▲Photo de : @U79916881747113

Le V7 prend actuellement en charge deux modes de fonctionnement : Turbo et Relax. Le mode Turbo est plus rapide mais coûte deux fois plus cher qu’un travail V6 classique ; Le mode brouillon coûte deux fois moins cher. Le mode vitesse standard est toujours en cours d’optimisation et devrait être lancé prochainement.

Actuellement, les fonctions d'agrandissement, d'édition et de retexturation reviendront au modèle V6 et seront progressivement mises à niveau vers la V7 à l'avenir. Les fonctionnalités Mood Board et SREF sont déjà disponibles, et les mises à jour ultérieures amélioreront encore les performances.

L'équipe Midjourney a révélé qu'au cours des 60 prochains jours, de nouvelles fonctionnalités seront lancées toutes les une à deux semaines, dont la plus attendue est le nouveau système de référence de rôles et d'objets V7.

Sans plus tarder, regardons d’abord les photos.

Le blogueur bien connu @nickfloats a partagé une comparaison d'images générées par la version MIdjourney V6/V7 sur la base du même mot d'invite. Jetons un coup d'oeil.

Rapide:
Une jeune Indienne aux cheveux noirs, coiffée d'une queue de cheval ouverte et vêtue d'une veste noire, se tient sur un campus universitaire et regarde directement la caméra. L’image a une esthétique de film de style années 1990, avec un portrait en gros plan par une journée ensoleillée.
(Une jeune femme indienne avec des cheveux noirs attachés en une queue de cheval lâche et une veste noire se tient sur un campus universitaire et regarde directement l'appareil photo. La photo est dans le style d'un film des années 90, avec une journée ensoleillée en arrière-plan, un portrait en gros plan.)

▲Gauche : V6 Droite : V7

La lumière dans la nouvelle version est plus naturelle, en particulier sur le visage du personnage, la couleur de la peau est plus claire, les détails sont plus riches et la mise au point de l'image est plus claire, en particulier la coiffure du personnage, mais elle sacrifie également une certaine atmosphère et expression émotionnelle.

Invite : Une majestueuse chouette effraie perchée sur une ancienne branche d'arbre couverte de mousse, entourée par la forêt brumeuse. La scène est baignée d’une douce lumière filtrant à travers le feuillage dense, créant une atmosphère magique et éthérée. Style photoréaliste avec une attention aux détails des plumes et des textures.
(Une majestueuse chouette effraie des clochers est perchée sur une branche ancienne recouverte de mousse, entourée d'une forêt brumeuse. Une lumière douce brille à travers les feuilles denses, créant une atmosphère mystérieuse et éthérée. Le style de l'image est réaliste et réaliste, montrant la texture des plumes et de l'écorce en détail.)

▲Gauche : V6 Droite : V7

La nouvelle version des plumes de hibou a une texture plus délicate, et les plumes ont des effets de superposition et d'ombre plus forts, ce qui les rend plus réalistes. En termes de posture du hibou, la nouvelle version est également plus naturelle. Le corps est légèrement incliné, ce qui lui donne un aspect plus dynamique. Les détails des yeux sont également plus vifs, traduisant un regard vigilant.

Bref, on ne peut pas avoir le gâteau et le manger en même temps. Le V7 est meilleur dans la recherche du réalisme ; Le V6 peut avoir plus d'avantages dans la recherche de l'impact et du mystère de l'image.

Invite : La main d'une personne pointe vers le hublot d'un avion, vu de l'intérieur avec son aile visible de profil. Le ciel extérieur montre un horizon dégagé à l’aube ou au crépuscule. Devant eux s’étend une vaste étendue d’océan.
(La main d'un homme montre le hublot de l'avion, où les ailes de l'avion sont visibles de côté. Le ciel extérieur est clair et l'horizon montre une scène à l'aube ou au crépuscule. Devant lui se trouve le vaste océan.)

▲Gauche : V6 Droite : V7

C'est aussi une scène où l'on regarde depuis le hublot de l'avion, une main pointant vers la fenêtre. Les progrès du V7 sont visibles à l’œil nu. En ajoutant des éléments de l'aile de l'avion, la superposition et le réalisme de l'image sont accrus, permettant au public de mieux ressentir la perspective d'être dans l'avion.

Invite : Un gros plan de brocoli sauté dans l'huile, avec les fleurons verts du légume contrastant avec une sauce brun foncé. Une grande cuillère est partiellement visible à l'intérieur d'un pot en acier inoxydable rempli de glaçage noir caramélisé et brillant sur le dessus, sur un fond blanc…
(Un gros plan d'un morceau de brocoli sauté dans l'huile, la couleur verte luxuriante contrastant avec la sauce brun foncé. Une grande cuillère est partiellement visible dans une casserole en acier inoxydable recouverte d'une sauce noire brillante couleur caramel sur fond blanc…)

▲Gauche : V6 Droite : V7

V6 Bien que la sauce et la cuillère soient mises en valeur grâce à un gros plan, la mise au point est très claire et l'attention est facilement attirée sur la texture et les détails de la sauce. Mais du point de vue des mots rapides, la nouvelle version présente une scène de cuisine plus complète en montrant la combinaison du brocoli et de la sauce dans toute la marmite, ce qui est plus logiquement cohérent avec le processus de cuisson réel.

Invite : Gros plan sur le visage d'une femme animée avec une expression choquée, des cheveux foncés, dans le style anime. Images fixes d'animation colorées, intensité de gros plan, éclairage doux, vue de caméra en contre-plongée et détails élevés.
(Gros plan du visage d'une femme anime avec une expression choquée et des cheveux noirs, dans un style anime. Image animée colorée, gros plan fort, lumière douce, prise en contre-plongée, avec des détails très fins.)

▲Gauche : V6 Droite : V7

En termes de traitement de la lumière, des ombres et des couleurs, le V7 répond également aux exigences « d'éclairage doux » du mot invite. Les transitions de lumière et d'ombre sur le visage sont plus douces et plus naturelles, en particulier la répartition de la lumière et des ombres sur les yeux et les joues, créant un effet plus tridimensionnel.

Invite : Un film dynamique d'une bataille spatiale épique avec des chasseurs stellaires élégants survolant une immense station spatiale, des tirs laser et une planète lointaine visible en arrière-plan.
(Une scène de film dynamique montre une bataille spatiale épique, avec des chasseurs stellaires profilés survolant, une immense station spatiale à l'écart, des tirs laser et des planètes lointaines clairement visibles, formant une image choquante.)

▲Gauche : V6 Droite : V7

En termes de portraits, la v7 s'est améliorée dans la finesse et le réalisme des détails (vêtements, peau, lumière et ombre, etc.), et les personnages ont un sens tridimensionnel plus élevé et une intégration avec l'arrière-plan, mais il a régressé dans la transmission émotionnelle, le drame et la dynamique des expressions.

Voici trois cas de comparaison spécifiques :

Invite : film mystérieux des années 1980, prise de vue en contre-plongée d'un majordome français aux yeux mauvais, vêtu d'un costume noir et tenant une bougie dans le couloir d'un manoir victorien effrayant au décor moisi. La lueur chaude des bougies évoque un sentiment de mystère effrayant
(Une prise de vue en contre-plongée dans le style d'un film policier des années 1980 montre un majordome français au regard mauvais, vêtu d'un costume noir et tenant une bougie, debout dans le couloir d'un vieux manoir victorien moisi. La chaude lueur des bougies crée une atmosphère étrange et mystérieuse.)

▲ Gauche : V6 Droite : V7

Invite : photo de mode de style urbain moyen-plein des années 1990, prise avec un Kodak 500T, montrant un homme robuste de 50 ans avec des cheveux gris bouclés, une ombre à 5 heures et un regard sévère marchant sur le trottoir par un beau matin de printemps à Paris. Il porte…
(Une photographie de style urbain de taille moyenne des années 1990, prise avec un film Kodak 500T, capture un homme d'une cinquantaine d'années avec des cheveux gris bouclés, de la barbe de trois jours et une expression sérieuse marchant sur le trottoir par un beau matin de printemps à Paris. Il porte…)

▲Gauche : V6 Droite : V7

Invite : Film cinématographique, décentré, en deux plans, 35 mm, d'un Français de 30 ans, cheveux bruns bouclés et polo beige taché, lisant un livre à son adorable fille de 5 ans, vêtu d'un pyjama rose pelucheux, assis dans un coin douillet…
(Un film cinématographique 35 mm, tourné de manière décentrée, d'un Français de 30 ans aux cheveux bruns bouclés, vêtu d'un polo beige taché, faisant la lecture à son adorable fille de 5 ans. La fille porte un pyjama rose tendre et est assise dans un coin douillet.)

▲Gauche : V6 Droite : V7

Conch AI+Midjourney sera-t-il la meilleure combinaison pour faire bouger les images ? L'internaute @inextastro l'a également essayé.

La photo ci-dessous générée par @tanvitabs à l'aide de la v7 a traversé tous les pièges de la génération d'images par l'IA, y compris une troisième main supplémentaire à partir de rien, la confusion entre les T-shirts et les costumes et la génération de visages incompatibles.
[image]

Enfin, voici un devoir de classe. Parmi les quatre photos ci-dessous générées à partir du même mot d'invite, quelle version préférez-vous ? Veuillez voter.

Invite : Modèle féminin élégant debout près d'une grande fenêtre dans une pièce ensoleillée, lumière douce du matin projetant des reflets et des ombres naturels sur son visage, portant une robe beige fluide, pose décontractée, maquillage minimal, profondeur de champ de l'objectif de 85 mm, style de vie éditorial, tons cinématographiques, atmosphère aérée
(Un mannequin féminin élégant se tient à côté de la grande fenêtre de la pièce où le soleil brille. La douce lumière du matin projette des reflets et des ombres naturels sur son visage. Elle porte une robe beige fluide, avec une posture détendue et un maquillage simple. Prise avec un objectif 85 mm, l'arrière-plan a une faible profondeur de champ, créant une sensation éditoriale de mode de vie. La photo a un ton semblable à celui d'un film et est pleine d'air.)

Quelle version de l'image préférez-vous :
À mi-parcours v7
Image Google 3
ChatGPT 4o
Préfet

Au cours des dernières années, le thème principal de la génération d’images IA a été la recherche de l’authenticité et de l’absence de gras.

L'année dernière, Flux a percé dans l'industrie et est devenu célèbre pour avoir généré des portraits ultra-réalistes. Désormais, Midjourney V7 prend le relais et pousse une fois de plus la « réalité » à un nouveau niveau avec des détails plus riches, des ombres et des lumières plus superposées et une texture de peau naturelle.

Mais la recherche de la vérité est-elle la fin de tout ?

Récemment, avec la sortie de la fonction de génération d'images multimodales de GPT-4o, une tendance inattendue s'est propagée : les images de style Ghibli ont enflammé Internet presque du jour au lendemain et ont également soufflé dans le monde de la génération d'images IA comme une brise printanière.

Il y a plus de possibilités de choix techniques et la manière de créer a également changé. En termes plus courants, c'est comme se tenir dans la cuisine maintenant. Que vous souhaitiez prendre un repas solide ou quelque chose de sombre, cela dépend entièrement de vous.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo