Cet outil de dessin IA est tellement amusant que vous n’avez même pas besoin d’écrire des mots d’invite

Il existe déjà trop d’outils de cartographie IA, mais le dernier Whisk de Google a trouvé une toute nouvelle façon d’y jouer, que même les internautes qui l’ont vu disent que c’est amusant.

Entrez simplement trois images, sujet, scène et style, et Whisk peut générer une image qui s'appuie sur les points forts de chacun.

▲ Photo de : Google

Par exemple, le thème est un vieil homme, la scène est des vignes, le style est une animation rétro des années 90, écrivez le mot invite "Personnage chevauchant un vélo volant", attendez un moment, une nouvelle image similaire au style Ghibli est née.

▲ Photo de : Google

Le vieil homme est toujours le même vieil homme, portant un chapeau, un costume et tenant un livre, mais il conduit la voiture avec des mots rapides, et la scène et le style ont également changé pour ceux de l'image de référence.

C'est l'avantage de Whisk : il nous permet de jouer facilement avec différents styles tout en écrivant moins de mots rapides. Maman n'a plus à craindre que je ne puisse pas écrire de mots rapides.

N'écrivez pas d'invites compliquées, affichez simplement les images.

Même si cela ne nécessite que quelques images, les façons de jouer à Whisk sont simples mais infinies.

Téléchargez trois images : l'image de thème, les frites McDonald's ; l'image de scène, le tableau de Monet "Nymphéas" ; l'image de style, le jeu de style pixel "Stardew Valley".

Sans écrire de mots d'invite, il est généré directement. Le résultat donné par Whisk est qu'une image vaut mieux que trois.

En plus de télécharger vos propres images, nous pouvons également lancer les dés et laisser Whisk générer de manière aléatoire des thèmes, des scènes et des styles.

En fait, les styles prédéfinis fournis par Whisk sont tout à fait suffisants, comprenant des badges, des autocollants, de la broderie, de l'argile, des bandes dessinées, des mosaïques, etc., avec des caractéristiques distinctives et des effets immédiats.

Tant que nous avons de l'intelligence et de l'imagination, sans un mot, simplement grâce à l'agencement et à la combinaison de différentes images, nous pouvons continuer à jouer à des jeux cloze – thème + scène + style, et tous les espaces ne doivent pas être remplis.

▲ 1. Image thématique, poulet fumé ; 2. Image de scène, peinture « Nuit étoilée » de Van Gogh ; 3. Image de style, estampe japonaise ;

▲ 1. Image thématique, « Fille à la perle » ; 2. Image de scène, une image tirée du film « Le Voyage de Chihiro » 3. Image de style, peinture abstraite de Mondrian ;

▲ 1. Image de thème, pack d'émoticônes WeChat « Death Smiling Face » ; 2. Image de scène, images fixes du film « Interstellar » 3. Image de style, captures d'écran de la bande dessinée Snoopy ;

▲ 1. Image de thème, l'avatar de surf par défaut est Momo dinosaure rose 2. Image de style, poupée Jellycat ;

De plus, pour chaque génération de Whisk, vous ne pouvez sélectionner qu'une seule image de référence pour la scène et le style, mais vous pouvez sélectionner plusieurs thèmes. qu'est-ce que cela signifie? On peut avoir plusieurs personnages dans le même cadre !

Par exemple, laissez Musk, Ultraman et Zuckerberg devenir tous des badges en émail.

Les costumes, les décorations et les expressions des trois personnes ont tous été très bien restaurés. Le microphone et le collier de Zuckerberg ne manquaient pas, mais les visages n'ont pas pu maintenir leur cohérence et ils sont tous devenus des visages publics.

Bien que Whisk réduise le besoin d'écrire des mots rapides, Whisk vous encourage également à les écrire si vous en avez besoin.

Ajoutez la phrase « Les personnages tiennent une pancarte indiquant AGI » dans la boîte de dialogue, et les méchants du badge ont facilement suivi l'invite.

Que se passe-t-il si nous avons besoin d’une certaine scène ou d’un certain style, mais que nous ne trouvons pas d’image de référence pour le moment et que les préréglages de Whisk ne la fournissent pas ?

La solution est très simple. Si vous n'avez pas d'image, écrivez simplement un mot d'invite et laissez Whisk en créer une sur place.

Tout comme j'avais besoin d'une base de style pixel sur laquelle le personnage puisse constituer une scène, j'ai donc demandé à Whisk de la générer pour moi.

Ensuite, utilisez le pack d'émoticônes de chat comme image de thème et le poussin pixel comme image de style pour obtenir un chat pixel avec une base.

Bref, Whisk est très libre, comme de la pâte à modeler, vous pouvez le façonner comme vous le souhaitez.

Il peut à la fois générer et comprendre des images, en regroupant des flux de travail complexes dans des « batteurs à œufs » intéressants.

Whisk est en fait un moyen pour les modèles multimodaux de Google de faire travailler leurs muscles.

Pour nous aider à écrire moins de mots rapides, Whisk intègre des capacités de compréhension visuelle et de génération d'images.

Le modèle Gemini reconnaît les images et génère automatiquement des descriptions détaillées. Ces descriptions sont ensuite saisies dans le modèle de génération d'images de Google, Imagen 3, qui génère des images.

Whisk est comme ça. Les utilisateurs n'ont qu'à télécharger et générer des images, mais il y a beaucoup de choses à prendre en compte.

Chaque image dans Whisk, qu'elle soit téléchargée ou générée, contient un long mot d'invite sous-jacent, et il n'est pas masqué. Nous pouvons cliquer sur l'image pour la voir, et nous pouvons également la modifier.

Si vous prenez une personne comme sujet d'image, Whisk décrira son apparence en détail et l'image de la scène sera similaire.

▲ Description d'Ultraman par Whisk : "Un homme à la peau plus claire, avec des cheveux courts et bouclés brun foncé, affichés de la poitrine vers le haut. Il a les yeux clairs. Il porte un pull à col rond en tricot beige clair. Contexte C'est un mur de béton gris marbré. . L'expression de l'homme est sérieuse et neutre, et la lumière est légèrement tamisée. Il y a une légère ombre sur le côté droit de son visage.

Les images de style sont légèrement différentes. Si vous utilisez une capture d'écran d'animation comme référence de style, Whisk ne dira pas qu'il y a trois personnes dans l'image, mais décrira la couleur, la lumière et les lignes du tableau…

▲ Description du style de Snoopy par Whisk : « Cette image est rendue dans un style de dessin animé, avec des contours bruts et des ombres plates. La palette de couleurs est limitée, utilisant principalement des couleurs primaires et des couleurs secondaires douces. L'éclairage est uniforme et manque d'ombres fortes ou de reflets. , lui donnant une texture simple, presque enfantine. Les lignes sont claires et cohérentes, avec une texture légèrement inégale qui suggère un effet dessiné à la main.

Par conséquent, Whisk ne copie pas exactement l'image, mais en extrait les caractéristiques et l'essence, et intègre naturellement le thème, la scène et le style, chacun accomplissant ses propres tâches sans interférer les uns avec les autres.

Dans le même temps, Whisk se chevauche également : il n'extrait qu'un petit nombre de caractéristiques clés de l'image et les résultats peuvent être différents de ceux attendus. Cela explique également pourquoi Whisk ne peut pas restaurer avec précision les visages.

Par conséquent, même si vous choisissez un style de film rétro moins abstrait, les visages des trois patrons ne sont pas côte à côte, mais d'autres détails sont précis.

Il en va de même pour les objets. Le Cybertruck de Tesla devient très ordinaire après extraction et régénération des fonctionnalités.

Mais s'il s'agit d'une super IP avec des matériaux riches comme les frites McDonald's, l'effet n'est pas mauvais et peut être utilisé comme image publicitaire. J'ai essayé quelques personnages Disney, et Whisk les a reproduits exactement tels qu'ils étaient, mais je ne publierai pas les photos.

De plus, Whisk a toujours un problème : il ne peut pas faire de références de style très détaillées et ne peut pas imiter un style de peinture spécifique.

Lorsque j'ai demandé à Whisk de générer une figurine Lego de Mona Lisa, le résultat m'a fait avoir les yeux noirs. Cependant, si j'ajoutais une invite supplémentaire, "Faites en sorte que le personnage ressemble davantage à un personnage Lego", Whisk pourrait l'imiter à 70 % ou 80 %. % mieux.

Il est encore plus difficile d'imiter le style d'un certain dessinateur. Téléchargez une capture d'écran d'un dessin animé auquel Whisk peut se référer, et cela finira par vous donner une image de style dessin animé très ordinaire. Même si vous utilisez des mots rapides pour souligner le travail, le personnage, et dessinateur, ça ne fera rien.

En fait, Whisk est assez amusant. Il convient mieux à l’exploration créative qui ne recherche pas la précision, communément appelée travail complet.

Fouet peut être traduit par « remuer » ou « fouet à œufs ». Le nom Google n'a-t-il pas un sens visuel fort ?

L'imprécision de Whisk le positionne également différemment des éditeurs d'images traditionnels et constitue davantage un outil créatif. Si vous avez des idées, utilisez-les pour obtenir des effets visuels approximatifs.

▲ Génération de fouet, 1. Image de thème, capture d'écran de « Naruto » 2. Image de style, jouet en peluche ;

Dans le passé, pour obtenir l'effet stylisé de Whisk et parcourir l'ensemble du processus de génération d'images, nous devions peut-être créer un flux de travail dans ComfyUI.

Mais maintenant, avec Whisk, vous avez l'impression de jouer à un jeu de tirage de cartes ou d'ouvrir une boîte aveugle, et tant que vous pouvez vous connecter (uniquement aux États-Unis), c'est actuellement gratuit.

Guide d'expérience
https://labs.google/fx/zh/tools/whisk

Les capacités du modèle leader de Google constituent certainement la prémisse et le fondement, mais la conception de produits dont tout le monde a besoin nécessite toujours de la créativité et de l'esthétique.

J'aime beaucoup le slogan de Whisk : « invitez moins, jouez plus ». (Écrivez moins de mots rapides, jouez plus.)

Whisk vient des laboratoires de Google, d'où provient également le podcast d'IA précédemment populaire NotebookLM, et s'est ensuite développé en un projet mature. Ce laboratoire lui-même est la meilleure annotation de ce slogan.

Avec de puissantes capacités de modèle, des produits innovants et un esprit ouvert, Google, qui semblait autrefois menacé par OpenAI, a montré sereinement son retour en tant que roi.

Elle est aussi vive que le gel d’automne et peut conjurer les désastres maléfiques. E-mail professionnel : [email protected]

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo