Vaincre Midjourney, pourquoi ce produit d’IA lancé par le géant de Google dépasse-t-il les autres dans un coin ?
Personne ne peut toujours être roi, mais avec le préfixe, tout le monde a une chance d'être roi.
Quels nouveaux tours l’IA Wenshengtu peut-elle jouer ?
Dans cette mer rouge dominée par un groupe de héros, la tête est occupée par Midjourney, DALL·E, Stable Diffusion, etc., et il n'y a pas beaucoup d'autres produits qui puissent faire briller les gens.
Cependant, des chevaux noirs émergent encore : Ideogram, fondée par d'anciens ingénieurs de Google et investie par des maîtres de l'IA de la Silicon Valley, a été lancée en août de l'année dernière et a lancé son dernier modèle fin février.
Ce qui rend Ideogram spécial, c'est qu'il est efficace pour générer des images contenant du texte, ce qui est exactement le problème que plusieurs géants améliorent.
Les faits ont prouvé que se relever d’un point où les autres sont tombés est un moyen de dépasser dans les virages.
Elle peut « dessiner » et « photographier », mais l’IA peut encore être « analphabète »
Il a toujours été difficile pour l'IA de générer du texte avec précision. Même si les personnages et les paysages générés ressemblent à ceux capturés par une caméra, ils ressembleront à du texte tronqué et déformé, et l'IA révélera instantanément sa forme originale.
▲ Texte d'erreur généré par Midjourney v5.2.
Ideogram s'est levé et a déclaré qu'il refusait de laisser AI continuer à être « analphabète » et qu'il pourrait tout aussi bien commencer par elle.
Le seuil pour entrer en contact avec Ideogram est très bas. Il suffit d’ouvrir la page Web (https://ideogram.ai/) et de vous connecter pour l’utiliser. L’interface semble rafraîchissante et simple.
Il n'y a pas beaucoup d'étapes pour générer une image. Remplissez les mots d'invite dans la zone de saisie, puis vérifiez le rapport hauteur/largeur de l'image, ainsi que les styles d'image tels que les photos, les affiches et les rendus 3D en fonction de l'effet souhaité.
Ideogram a également pris en compte le fait que les humains peuvent être « difficiles » avec les mots d'invite. En février de cette année, il a lancé « Magic Prompt », qui est comme un ChatGPT intégré pour vous aider à améliorer les mots d'invite, et l'IA peut saisir les pensées. de personnes semblables.
Quelles images contiennent du texte ? Logos de produits, impression de T-shirts, couvertures de livres, affiches de films…
Faisons d'abord un test d'entrée de gamme en demandant à quelques personnes de brandir une pancarte avec le nom d'un animal. À première vue, le texte est correct, mais le visage et les mains ne sont pas normaux. Les deux s'annulent. Il s’avère que les défauts n’ont pas disparu, mais ont simplement été transférés.
Si vous laissez Ideogram écrire uniquement, l'effet sera bien plus étonnant.
Laissez l’IA générer la phrase classique de Musk : « Je préfère être optimiste et avoir tort que pessimiste et avoir raison. » À l’exception du « W » qui est imparfait, tous les autres mots sont écrits correctement.
La police est un peu plus vive, et Musk, né dans les années 1970, ne sait pas s'il peut l'accepter, mais la collision du noir et du blanc devrait satisfaire celui qui a changé le Petit Oiseau Bleu.
En prenant le proverbe classique « Tout travail et aucun jeu rend un enfant intelligent stupide » comme question test, bien que le mot d'invite mette l'accent sur l'utilisation de polices d'imprimante, Ideogram n'y est pas parvenu. Il semble que la police ne puisse pas être définie uniquement à l'aide de mots d'invite et ne puisse être qu'approchée.
Ensuite, l’IA a reçu l’ordre de concevoir un logo pour une startup d’IA appelée « Coffee AI ».
Le corps principal est une tasse à café avec un motif de circuit. Il y a un robot barista dans le coin supérieur droit. Le nom de l'entreprise est écrit en lettres majuscules grasses. La mise en page est simple et sobre. En tant que logo, il est très intuitif, mais D'une manière générale, c'est attendu et il est difficile de le faire savoir. Fang a pris une décision rapide.
Il est temps de rendre l’IA plus difficile, avec des phrases plus longues et des exigences de conception plus élevées.
J'ai demandé à Ideogram de concevoir une page intérieure pour un livre d'images pour enfants. Non seulement elle devrait être écrite "Renard en chaussettes et lapin en haut-de-forme" dans un endroit bien en vue, mais aussi "Anonyme" devrait être marqué en bas.
Pour ces deux lignes de texte, Ideogram a pratiquement accompli la tâche, en utilisant des polices dessinées à la main et des graffitis à la craie, et a même inclus des illustrations qui correspondent au sens du titre. Le goût du livre d'images est bon, mais les erreurs sont également très visibles Il y a quelque chose qui ne va pas avec le mot "in". Le lapin ressemble à un renard et est le frère du renard.
L'idéogramme peut également être utilisé pour des affiches de films. Vous pourriez aussi bien essayer le film populaire "Les Trois Maléfiques" avec Ethan Ruan, devenu populaire il y a quelque temps.
J'ai mélangé des allusions et des films dans les mots d'invite. L'arrière-plan utilisait des images de silhouettes de chevaliers, de mers et de montagnes, et le texte faisait référence aux noms anglais des films : Cochons, Serpents et Colombes.
À l'exception du "le" manquant, l'effet final de l'affiche est plutôt bon, mélangeant des images classiques et des polices modernes. Le graffiti de pigeon est la touche finale, mais dans l'ensemble, il ressemble plus à un style fantastique occidental, ce qui fait que les gens se sentent inconnus et difficiles à comprendre. y associer l'intrigue du film.
Grâce à l'expérience, j'ai découvert que la probabilité d'erreurs textuelles dans Ideogram n'est pas faible. Parfois, il est généré deux ou trois fois pour obtenir le résultat idéal, mot pour mot.
Même si le texte est correct, les visages et les doigts des personnages semblent souvent décalés.
Il peut également ajouter des astuces sophistiquées, générer aléatoirement du texte dénué de sens et déformé et se gifler.
▲Les petits personnages ici sont flous en boule.
Mais dans l'ensemble, Ideogram est surprenant. Il peut écrire de longues phrases et il utilise des polices et des méthodes de mise en page appropriées pour correspondre à l'atmosphère de l'image. Bien qu'il ne soit pas encore capable d'écrire en chinois, les mots comme les symboles fantômes s'intègrent très bien dans les plis. de vêtements.
▲ Ces quatre mots signifient en réalité « Gong Xi Fa Cai ».
Malgré ses défauts, il existe déjà de nombreux scénarios d'emploi pour Ideogram. Il peut être utilisé comme référence d’inspiration et assistant créatif lors de la conception de logos, d’affiches et de modèles de T-shirts.
Dans le passé, j'avais peur que l'IA soit capable de « dessiner » et de « photographier ». À l'avenir, j'aurais peur que l'IA soit instruite et capable de concevoir.
L'esthétique n'est pas inférieure à Midjourney, et c'est aussi un outil d'émoticône
Les progrès de l’IA se mesurent en jours, et le monde peut changer dès votre réveil. Bien qu'Ideogram affirme que ses capacités de rendu de texte sont les plus puissantes, ses adversaires ne s'avouent pas vaincus.
Stable Diffusion 3, qui n'a pas encore été rendu public et est open source, a été officiellement annoncé en février et a amélioré les capacités d'orthographe du texte.
▲ Capacités orthographiques de Stable Diffusion 3.
Midjourney v6, une version bêta publiée en décembre de l'année dernière, est la première version de Midjourney dotée de capacités de génération de texte fiables.
Cependant, ses exigences restent assez exigeantes : en plus de placer le texte entre guillemets, les mots d'invite doivent de préférence expliquer l'emplacement et la méthode d'écriture du texte, et utiliser des mots-clés tels que « impression » et « écriture », un à deux. mots La génération de texte fonctionne mieux.
▲ Fonction de génération de texte de Midjourney v6.
L'équipe d'Ideogram, qui était pourchassée, n'a pas paniqué et a estimé que l'avantage revenait à moi. Ideogram a toujours un taux de précision plus élevé et peut gérer des phrases complexes et longues.
L'évaluation du système d'Ideogram montre également qu'Ideogram 1.0 possède la plus grande précision dans le rendu du texte, avec un taux d'erreur réduit de près de 2 fois par rapport à d'autres modèles tels que DALL·E 3.
Au lieu de simplement parler et pratiquer des tours, il est préférable d'utiliser les mêmes mots d'invite et de laisser Ideogram 1.0 rivaliser avec Midjourney V6 et DALL·E 3 sur la même scène.
Tout d'abord, comparons l'exactitude du texte généré. J'ai demandé aux IA de dessiner une illustration d'un lever de soleil dans le style Ukiyo-e. La ligne classique "Demain est un nouveau jour" de "Autant en emporte le vent" a été placée dans le position appropriée pour exprimer l’espoir et la renaissance.
Cette fois, Ideogram a été le gagnant, avec une orthographe précise et un design audacieux et exceptionnel de lignes et de couleurs.
DALL·E, qui n'a jamais été très artistique, a une texture inattendue. Le texte est fondamentalement correct mais pas complètement correct, et le style de peinture est plus abstrait. Non seulement le texte de Midjourney est inexact, mais l'esthétique est également inférieure, et il n'a même pas écouté attentivement la question.
▲ À gauche se trouve DALL·E, à droite Midjourney.
La deuxième est de rivaliser sur la capacité de créer des mèmes. Ideogram a officiellement mentionné la fonction de génération d'émoticônes. Avec l'aide de « messages magiques », l'IA utilisera son imagination pour élargir les mots d'invite et ajouter de la rédaction pour rendre les images émotionnelles.
Je voulais voir si l'IA pouvait générer une émoticône de chat fonctionnel, alors j'ai entré l'invite : "Dessinez un mème intéressant sur un chat en larmes portant un nœud papillon et une chemise, tapant devant un ordinateur, comme métaphore du travail humain dur. "
Ideogram a utilisé son imagination et a consciemment ajouté le texte « Les chats doivent aussi travailler ».
Le seul inconvénient est qu'il y a un "have" supplémentaire et que le nombre de doigts sur les pattes avant est faux. Il semble que l'IA ait non seulement des problèmes avec les mains humaines, mais aussi avec les pattes de chat. Comparé au package d'émoticônes d'origine, il est tout à fait satisfaisant et ne peut pas être aussi aléatoire que "Crying Cat Head".
▲ La gauche est l'image du réseau, la droite est l'idéogramme.
Le chat de Midjourney est sérieux et élégant, comme s’il s’agissait d’un écrivain devenu riche et libre, et ressemble plus à une séance photo dans un magazine, mais la souris ne sait pas ce qui se passe.
▲ À gauche se trouve Midjourney, à droite DALL·E.
DALL·E a les meilleures émotions. Bien que le style de peinture soit un peu décontracté, il a l'avantage d'être rugueux. Il semble que les larmes de nouilles qui ne sont pas dans la même couche aient une saveur interne. C'est vraiment approprié d'être utilisé comme pack d'émoticônes.
Le troisième est la capacité de comprendre des mots d'invite complexes et longs, en particulier si les éléments du mot d'invite sont complets et si la position du mot d'invite est exacte.Par conséquent, j'ai entré un mot d'invite relativement long et stipulé la position de chaque sujet.
L'idéogramme fonctionne mieux dans la composition globale. Plusieurs points clés mentionnés dans les mots d'invite sont couverts. La marque en forme de cœur, le robot, l'astronaute, le ballon et la médaille sont tous inclus, bien que des détails tels que la main de l'astronaute et les mots de la médaille soient manquants. question.
En comparaison, Midjourney est plus artistique, mais les éléments manquent, et certaines décorations ne sont pas là, et il a ses propres idées et personnalité. DALL·E ne manque pas seulement d'éléments, mais les détails sont faux, et il ça n'a pas l'air bien non plus.
▲ Le haut est Midjourney, le bas est DALL·E.
Ainsi, quel que soit le texte, rien qu'en regardant la qualité de l'image, Ideogram n'est pas mal non plus. Parfois, la restauration de la relation spatiale de divers objets dans les mots d'invite est plus précise que les autres IA.
En termes d'expérience utilisateur, la vitesse de génération d'Ideogram est plus rapide que celle de Midjourney : généralement, quatre images peuvent être réalisées en plus de dix secondes.
Même selon les règles d'évaluation de l'industrie, les évaluateurs humains ont préféré Ideogram 1.0 à DALL·E 3 et Midjourney V6 en termes d'alignement rapide, de cohérence d'image, de préférence globale et de qualité de rendu du texte.
Même si vous n'êtes pas satisfait des images générées par Ideogram, si vous utilisez ses mots d'invite magiques, l'effet généré sur Midjourney et DALL·E peut être meilleur que de le frotter à la main. Cela peut être considéré comme un moyen d'optimiser l'invite. mots.
Personne ne peut me battre dans mon BGM, mais si le même mot d'invite est utilisé par différentes IA, le résultat est vraiment incertain.
Une entreprise star fondée par les ingénieurs de Google, avec des produits d'IA terre-à-terre
Ideogram a été créé en août de l'année dernière et a lancé son dernier modèle, Ideogram 1.0, en février de cette année.
Il s'agit d'une autre entreprise vedette composée d'une équipe fondatrice de sept personnes issues de Google Brain, de l'Université de Californie à Berkeley, de l'Université Carnegie Mellon et de l'Université de Toronto, dont quatre sont les auteurs du document de recherche Imagen sur le modèle de diffusion graphique de Google Vincent.
Le prudent Google tarde souvent à lancer des produits et a vu ses concurrents devenir célèbres à plusieurs reprises dans le monde entier : le chatbot a été devancé par ChatGPT et Imagen a été dépassé par DALL·E 2.
Du point de vue des ingénieurs, ce n’est pas une bonne chose que les résultats de la recherche ne puissent pas être mis en œuvre dans des applications grand public. De nombreuses personnes ont choisi de partir et de créer elles-mêmes de nouveaux produits, les rendant aussi ouverts à l'utilisation que possible et accumulant d'abord la taille et la réputation des utilisateurs.
Le quota gratuit d'Ideogram de 25 mots rapides par jour peut également être basé sur cette considération.
Le marché est très optimiste à propos de ce produit. Ideogram a finalisé une ronde de financement de série A de 80 millions de dollars dirigée par le capital-risque a16z de la Silicon Valley. Parmi les investisseurs figurent des maîtres de l'IA, dont le scientifique en chef de Google, Jeff Dean, et Andrej Karpathy, membre fondateur de l'équipe OpenAI.
En fait, après avoir expérimenté de nombreux produits d’IA, je me pose secrètement une question : Comment définir l’utilité d’un produit ?
▲ Modèle de T-shirt généré par Ideogram.
Ce que j'ai trouvé utile auparavant, c'est le plug-in "Immersive Translation". Contrairement à Google Translate, il couvre le texte original et peut être comparé entre le chinois et l'anglais. Il peut être utilisé non seulement sur les pages Web d'actualités, mais également sur X flux d'informations. , sous-titres YouTube et fichiers PDF.
L'idéogramme semble si terre-à-terre. D'une part, il peut générer avec plus de précision le contenu textuel requis par les utilisateurs et s'adapter à différents styles d'images. D'un autre côté, il peut également créer quelque chose à partir de rien et associer des images avec du texte approprié, comme des émoticônes.
Bien que de nombreux résultats générés par Ideogram ne puissent pas être utilisés immédiatement, ils répondent au moins fondamentalement aux exigences en termes de mots d'invite et la majeure partie du texte est lisible.
J'ai également découvert par expérience que les images réalistes d'Ideogram sont moyennes, mais que ses graffitis, illustrations et peintures sont bons et que son talent artistique est comparable à celui de Midjourney.
▲ Illustrations d'art graffiti générées par Ideogram.
Le site officiel d’Ideogram propose également des classements de popularité de diverses œuvres. Au moment où vous ouvrez le site Web, vous semblez avoir entré par erreur une communauté d'images de style Instagram, et vous pouvez également apprendre les mots d'invite ci-dessus.
Lorsqu'un outil d'IA combine créativité, commodité et partage, il est facile de devenir accro. La manifestation spécifique est que les 25 mots d'invite par jour sont rapidement épuisés. Ce sentiment d'anxiété est similaire à l'attente que les points de Suno soient mis à jour.
Pour un abonnement mensuel de 7 $ ou 16 $, en plus de temps de génération plus longs, Ideogram fournit également des fonctions de téléchargement et d'édition d'images.
Le téléchargement d'images signifie que les utilisateurs téléchargent leurs propres images, puis les recréent via la fonction Remix.
▲ La gauche est l'image originale et la droite est la sortie.
En plus des fonctions habituelles telles que le recadrage et le zoom, l'éditeur dispose également d'un outil de dessin intéressant qui génère des images à partir d'un dessin abstrait. Les peintres humains décrivent grossièrement la forme, la composition, la couleur, etc. de chaque élément, et l'IA est chargée de transformer la décomposition en magie, donnant à Ma Liang une impression de déjà-vu.
L'idéogramme peut survivre à la tempête sanglante, la facilité d'utilisation est bien sûr la chose la plus importante et son positionnement est également très précis.
Si l’esthétique est le critère le plus important, alors Midjourney remporte la palme. Bien que le niveau de DALL·E monte et descend, le ChatGPT intégré est pratique à appeler et la diffusion stable open source apporte la liberté.
Rien qu’en termes d’échelle d’utilisateurs, Ideogram n’est peut-être en mesure de battre aucun d’entre eux, mais il a fait du bon travail dans sa longue liste et devrait être en mesure de gagner sa propre audience.
Au moins parmi les générateurs d'images IA gratuits, la qualité globale d'Ideogram est en tête, la page Web est facile à utiliser, des crédits gratuits sont fournis, le rendu du texte est puissant, la fonction d'invite magique et la communauté des créateurs apportent créativité et inspiration.
Les modèles de diagrammes vincentiens sont loin d'être parfaits et travaillent encore dur pour restaurer le monde physique ou pour être à égalité avec les peintres et les designers. D’autres idéogrammes pourraient encore trouver leur place.
C’est là que réside la cruauté et le charme de la compétition en IA. Je ne sais pas qui rira le dernier, mais il y aura toujours de nouveaux adversaires visant le talon d’Achille.
# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo