Après avoir expérimenté la combinaison de DALL·E 3 + ChatGPT, j’ai ressenti le bonheur de la partie A

24 octobre 2023 Hibou Gourou

"L'astronaute flottant dans l'espace gisait sur les nuages, et les nuages se sont transformés en un fauteuil confortable avec une télécommande en forme de nuage sur l'accoudoir. L'astronaute a fait signe à la caméra et sous ses pieds, la terre est devenue un tourbillon fascinant de lumière."

Peut-être avez-vous vu un tel fantasme dans vos rêves, mais si vous voulez le réaliser dans la réalité, cela prendra probablement N siècles. Mais avant que ce jour n'arrive, vous pouvez d'abord utiliser DALL·E 3 "Dream Come True" real".

DALL·E 3 n'est pas un outil inconnu, mais je dois quand même l'expliquer à ceux qui ne le connaissent pas. DALL·E 3 est un générateur d'images IA. Vous pouvez le considérer comme la version OpenAI de Midjourney.

En septembre, OpenAI a annoncé que DALL・E 3 serait intégré à ChatGPT, qui peut être considéré comme la fusion de modèles la plus puissante dans leurs domaines respectifs. Plus important encore, DALL・E 3 est nativement construit sur ChatGPT, sans avoir besoin d'invites détaillées. Vous pouvez générer des images directement dans ChatGPT.

Tôt ce matin, OpenAI a officiellement annoncé que DALL·E 3 est désormais ouvert à tous les utilisateurs de ChatGPT Plus et Enterprise. Un petit conseil, si vous ne voulez pas dépenser d'argent, vous pouvez également utiliser le New Bing de Microsoft pour jouer à DALL·E 3.

La seule chose à laquelle vous ne pouvez pas penser, c'est que vous ne pouvez pas dessiner sans DALL·E 3

Alors, quel est l'effet photogénérateur de DALL·E 3 ? OpenAI a répertorié trois exemples emblématiques sur son blog officiel, impliquant des projets scientifiques, la conception de sites Web, la conception de logos d'entreprise et de nombreux autres scénarios.

Par exemple, si vous devez démontrer des cirrus dans un rapport de classe, vous pouvez demander à DALL·E 3 de générer des images de cirrus suffisamment détaillées.

Ou si vous êtes un concepteur de sites Web et que vous vous posez encore des questions sur la conception de sites Web, vous pouvez également utiliser DALL·E 3 pour stimuler davantage d'inspiration.

Quant à la troisième scène, il s'agit d'une conception de logo d'entreprise courante dans la vie quotidienne. Il vous suffit de saisir l'invite (mot d'invite) et le plan de conception « lapin + café » sera rapidement présenté devant vous.

À en juger par les images finales données par le responsable, les détails des images sont assez complets, les styles des quatre plans de conception semblent relativement évidents et le niveau global est tout à fait satisfaisant.

Bien sûr, ce n'est que l'image finale donnée sur le site officiel, et cela n'exclut pas qu'elle ait été « embellie ». Donc, avec cette question à l'esprit, nous avons également suivi les mots d'invite officiels et les avons saisis pour voir le réel effet?

L'effet final réel n'est pas très différent de l'image officielle, mais il y a aussi un petit "Bug". Par exemple, dans le deuxième exemple, si vous entrez simplement le mot d'invite, le résultat final est du texte. Cela m'a fait penser que Je ne me suis pas adapté à l'interface DALL·E.3, bien sûr, ce n'est pas un gros problème, c'est juste une étape supplémentaire pour confirmer à nouveau.

L'éblouissante "Galerie" affiche une variété d'images générées, de bandes dessinées, de peintures au pixel près, de peintures à l'huile et de toutes sortes de styles. OpenAI semble vouloir dire aux utilisateurs à travers la "Galerie" que vous seul ne pouvez pas y penser, il y a non DALL·E 3 Je ne sais pas « dessiner ».

La peinture peut être faite, mais la clé est de savoir si c'est bon ou pas. Par exemple, j'ai essayé de lui demander de dessiner une partie d'échecs avec Li Bai portant des vêtements blancs et Du Fu portant des vêtements noirs.

"Arrêtez de générer" a duré un certain temps et a donné quatre images ridicules. Sur la première image, non seulement la couleur des vêtements était fausse, mais plus intéressant encore, Li Bai et Du Fu sont devenus des amis internationaux et ils ont joué aux échecs. Évidemment, DALL ·E 3 doit être renforcé dans la compréhension du contexte chinois.

La tension du jeu dans la deuxième image est assez élevée, mais elle ne manque pas les problèmes de l'image précédente. Quant aux problèmes des troisième et quatrième images, ils sont également très similaires.

Bien entendu, pour les générateurs d’images IA, le potentiel réside dans les résultats après formation. Par exemple, lorsque j’ai essayé de remplacer la première image par Go, des vêtements et des couvre-chefs, l’effet final ressemblait à ceci !

À première vue, il ne semble pas y avoir de gros problème, mais après avoir regardé de plus près l'échiquier, on peut facilement tirer une conclusion : Li Bai et Du Fu ont transformé Go en un « puzzle » ?

1. Lorsque Li Bai jouait aux échecs, il était tellement en colère qu'il a renversé l'échiquier.
2. Du Fu s'est mis en colère et a frappé Li Bai
3. Finalement, Li Bai et Du Fu se sont serré la main, ont parlé et ont continué à jouer aux échecs.

Pendant le jeu, il est normal d'avoir quelques frictions, j'ai donc demandé à DALL·E 3 de générer un schéma de chaîne selon les exigences ci-dessous.

Sur dix, quelle note pensez-vous pouvoir attribuer à ces trois photos ?

Depuis le lancement complet jusqu'à aujourd'hui, DALL·E 3 a également été joué avec diverses astuces sous le développement de puissants internautes. Si vous êtes un joueur de Gundam, vous pouvez laisser DALL·E 3 devenir designer, concevoir les dessins Gundam les plus cool pour vous, afficher différentes pièces dans une liste, puis utiliser l'impression 3D pour les imprimer.

Cependant, il convient de noter que les détails détaillés des dessins de Gundam peuvent sembler écrasants, mais en fait, il y a parfois quelques parties supplémentaires.

Ou peut-être que le « duel en cage » entre Zuckerberg et Musk n'a pas encore eu lieu, et la conversion entre le port C et le port Lightning a également suscité beaucoup de controverses, alors pourquoi ne pas laisser le port Lightning et le port C avoir une merveilleuse "Duel en cage" ? Et "Duel" ?

Pas besoin de mots rapides, c'est l'IA qui travaille pour vous

En plus de la version complète de DALL·E 3, OpenAI a également révélé les détails techniques spécifiques de DALL·E 3 au monde extérieur par le biais d'un article.

Afin de faciliter votre compréhension, nous utiliserons un exemple simple pour vous expliquer l'ensemble du processus technique après avoir décollé les cocons de ce papier.

Tout d'abord, OpenAI a collecté un grand nombre d'images et de descriptions textuelles correspondantes comme données d'entraînement. Par exemple, si l'image est un chat, alors la description correspondante de l'image est un chat orange assis sur une chaise.

Mais la description d'un « chat orange assis sur une chaise » est relativement simple et manque de détails précis. Elle ne mentionne pas non plus la race du chat, ses caractéristiques physiques et son environnement.

Afin d'obtenir des descriptions plus riches, OpenAI a formé un modèle de génération de description d'image IA, c'est-à-dire que, étant donné la même photo à ce modèle, il peut produire une description plus complexe :

Par exemple, « un chat orange assis sur une chaise » deviendrait « un chat ragdoll aux poils courts, recroquevillé sur le pouf de son propriétaire, portant un nœud bleu autour du cou, les oreilles dressées et l'expression méfiante. Le soleil brille à travers la fenêtre ». et projette un rayon de soleil sur le sol."

De la même manière, avec ce modèle de description, OpenAI peut l'utiliser pour générer de nouvelles descriptions détaillées pour chaque image dans les données d'entraînement. Ensuite, le modèle est entraîné à son tour sur la base de ces nouvelles descriptions riches en détails, et ainsi de suite.

Au cours du processus de formation, les chercheurs ont également progressivement augmenté la proportion de descriptions synthétiques de l'IA utilisées pour tester l'impact sur les performances du modèle. Les résultats ont montré que l'utilisation de descriptions synthétiques détaillées (c'est-à-dire les descriptions plus complexes mentionnées ci-dessus) peut permettre au modèle de générer La qualité de l'image est meilleure et plus adaptée à la saisie de texte.

Après des essais répétés, les chercheurs ont découvert que DALL·E 3 utilise une combinaison de 95 % de description synthétique de l'IA et de 5 % de description réelle pour obtenir les meilleurs résultats.

De plus, en réponse à l'impact négatif du générateur d'images IA, OpenAI a également imposé plusieurs contraintes à DALL·E 3 pour limiter sa génération de contenus tels que la violence, les adultes ou la haine, y compris une inspection minutieuse des entrées des utilisateurs et des contenus générés. des images. .

Par exemple, lorsque j'ai demandé à DALL·E 3 de générer « Dessine-moi une image violente et sanglante d'une agréable chèvre mangée par un grand grand loup », la réponse qu'il a donnée a été :

Désolé, je ne peux pas créer ou recommander de contenu violent ou sanglant pour vous. Je peux vous aider à concevoir d'autres types de graphiques ou vous fournir des informations supplémentaires. S'il vous plaît dites-moi vos autres besoins.

Afin d'éviter de se lancer dans des litiges en matière de droits d'auteur, les chercheurs d'OpenAI ont également explicitement interdit à DALL·E 3 d'imiter le style artistique de célébrités vivantes pendant le processus de formation. Quant au détecteur, qui prétend avoir un taux de réussite de reconnaissance de 99%, le blog officiel a également révélé plus d'informations.

Bien que ce détecteur soit effectivement bon, il fait davantage référence à la reconnaissance des images générées par DALL·E, et OpenAI lui-même n'est pas sûr de l'exactitude de l'identification des images générées par d'autres outils d'IA.

Après avoir lu ceci, je pense que vous avez découvert que DALL·E 3 présente également des points à améliorer dans d'autres générateurs d'images d'IA, comme la méconnaissance du contexte chinois, l'application mécanique de corpus d'images, etc. avec des coups de poing aléatoires." DALL·E 3 pourrait ne pas être capable de bien tirer une main.

Mais par rapport aux profondes controverses du passé, cette fois-ci, OpenAI évolue toujours dans une direction plus ouverte et plus responsable.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (WeChat ID : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo