5 choses avec lesquelles les générateurs d’images AI ont encore du mal

Les générateurs d'images AI comme Dall-E , Stable Diffusion , Midjourney et Bing Image Creator produisent des résultats étonnants, mais parfois ils peuvent être incroyablement frustrants. Avec des invites simples contenant seulement quelques mots, une IA peut produire des images impressionnantes qui semblent être des photographies professionnelles et des œuvres d'art convaincantes dans différents styles. Cependant, la même invite créera parfois une créature horrible ou un rendu hilarant.

Les invites négatives peuvent aider à réduire la probabilité de ces erreurs, mais la complexité ne peut pas toujours vous sauver. Même les experts en intelligence artificielle sont aux prises avec des créatures difformes et des scènes hors du monde, nécessitant de longues heures d'affinage des invites ou de retouches d'images avec un éditeur de photos traditionnel. Pour le moment, si vous regardez attentivement dans les bonnes zones d'une image, il y a de fortes chances que vous puissiez identifier si elle a été réalisée par une machine.

Salade de main et boules de doigts

Les développeurs d'IA ont fait des progrès dans la lutte pour enseigner aux outils d'intelligence artificielle à quoi devraient ressembler les mains humaines, mais il y a beaucoup de place pour l'amélioration. Si les doigts ne sont pas mis en évidence, il est facile de manquer des erreurs, mais c'est un problème permanent.

Dall-E était l'un des premiers leaders de l'IA, mais les mains ne sont pas son truc.
Dall-E était l'un des premiers leaders de l'IA, mais les mains ne sont pas son truc. Dall-E invité par Alan Truly

L'un des premiers et des meilleurs générateurs d'images d'IA accessibles au public, Dall-E d'OpenAI , a créé ces images de personnes se tenant la main. À première vue, cela peut sembler bien. En y regardant de plus près, certains problèmes deviennent apparents. Méfiez-vous des doigts supplémentaires, des ongles étranges et des chiffres fusionnés.

Les prises compliquées et les doigts entrelacés sont encore plus difficiles. Ne soyez pas surpris si vos images d'IA reviennent avec des problèmes classiques appelés "salade de main" ou "boulettes de doigts".

Les mains entrelacées de Dall-E dérangent.
Les mains entrelacées de Dall-E dérangent. Dall-E invité par Alan Truly

Texte et écriture troublants

Vous pourriez vous attendre à ce que le texte soit facile à générer pour un ordinateur. Vous voyez quotidiennement des preuves de mots sur les écrans lorsque vous décrochez le téléphone ou ouvrez un navigateur. Les premiers ordinateurs, contrairement aux meilleurs PC de jeu d'aujourd'hui, ne pouvaient afficher aucun graphique. Tout était texte ou chiffres.

Leonardo AI connaît les styles, mais le texte imprimé est un défi.
Leonardo AI connaît les styles, mais le texte imprimé est un défi. Leonardo AI incité par Alan Truly

Pourtant, l'affichage de lettres et de symboles réels sous forme de mots imprimés ou écrits est étonnamment délicat pour un générateur d'images IA . Cela peut sembler être un problème facile à résoudre, mais ce n'est pas le cas. Une application ne peut pas simplement superposer du texte brut. Pour être convaincant, le style de texte, l'ombrage, l'angle et la perspective doivent correspondre au reste de la scène.

Dans l'exemple, un générateur d'images AI relativement nouveau, Leonardo AI, a fait un vaillant effort avec un panneau d'affichage vintage pour le restaurant de Jack Rabbit Slim. Après plusieurs essais, l'IA a réussi à épeler "Jack Rabbit's", ce qui est assez proche de la demande. Le style de photographie vintage était parfait dans chaque image, mais les lettres et les mots étaient pour la plupart imparfaits.

Leonardo AI a failli obtenir du texte dans l'un de ces rendus.
Leonardo AI a failli obtenir un texte correct dans le rendu de gauche. Leonardo AI rend les rendus à l'instigation d'Alan Truly

Les yeux ne l'ont pas

Bing Image Creator a du mal avec les yeux.
Bing Image Creator invité par Alan Truly

On dit souvent que les yeux sont les fenêtres de l'âme. Nous comptons tellement sur le contact visuel que cela pourrait être le détail le plus critique dans la création d'un portrait réaliste. Mais de nombreux outils d'IA ont du mal à rendre les yeux humains.

Bing Image Creator a fait un travail décent avec l'arrière-plan du studio et a posé une photo de famille multigénérationnelle. Cependant, presque tout le monde a des yeux bizarres qui semblent avoir été insérés par des extraterrestres, ou peut-être que ces personnes souriantes sont en train de se transformer en créatures surnaturelles.

Deux exemples plus proches des problèmes oculaires de Bing Image Creator.
Deux exemples plus proches des problèmes oculaires inquiétants de Bing Image Creator. Bing Image Creator invité par Alan Truly

Outils gênants

Les humains sont doués avec les outils et pas seulement avec la variété numérique comme l'IA. Nous maîtrisons rapidement tout outil physique à notre portée. Une IA, en revanche, a du mal à comprendre ce qu'ils sont et comment ils sont utilisés.

Midjourney comprend les mains mais est intrigué par les clés.
Midjourney comprend les mains, mais est intrigué par les clés. C'est une ampoule en bas à gauche ? Midjourney incité par Alan Truly

Midjourney est un générateur d'images d'IA qui fait des progrès fantastiques dans la résolution de problèmes avec des visages et des mains humaines. Cependant, lorsqu'il est invité à montrer un mécanicien serrant un boulon avec une clé, l'outil est totalement absent. Les ongles sont ajoutés aux gants dans un cas, et une ampoule apparaît d'une manière ou d'une autre dans un autre.

Les ciseaux sont trop compliqués pour Bing Image Creator dans ce rendu en gros plan de cheveux coupés. Ils ne sont ouverts que sur une seule image et ne semblent jamais être en train de couper.

Bing Image Creator ne comprend pas les ciseaux.
Bing Image Creator ne comprend pas comment fonctionnent les ciseaux. Bing Image Creator invité par Alan Truly

Dents de cauchemar

Les rendus de diffusion stable des sourires ont parfois trop de dents.
Diffusion stable via Leonardo AI, invité par Alan Truly

Lorsque les gens sourient et rient, cela améliore généralement une image, la rendant agréable et amusante. Lorsqu'on lui donne une simple invite comme deux étudiants souriant et riant, une IA peut transformer cela en carburant cauchemardesque avec plusieurs rangées de dents et d'autres distorsions étranges.

Leonardo AI vous permet de choisir entre plusieurs modèles, et certains gèrent bien les dents. Le modèle populaire Stable Diffusion 2.1 avait besoin d'aide pour obtenir de bonnes dents. Avec quelques incitations négatives, le problème a été résolu. Il existe des solutions à ces problèmes d'image AI, mais il faut encore du travail pour obtenir de bons résultats.

Les sourires à diffusion stable bénéficient des invites négatives.
Les sourires à diffusion stable bénéficient d'invites négatives pour retirer les « dents bizarres » et la « bouche déformée ». Diffusion stable via Leonardo AI, invité par Alan Truly

L'art de l'IA s'améliore rapidement

Aux débuts de l'art de l'IA, les résultats étaient étranges et merveilleux, créant la beauté et l'horreur avec le même abandon. Les erreurs deviennent moins perceptibles à chaque nouvelle mise à jour, et de nombreux problèmes peuvent être surmontés avec un peu de raffinement.

Avec autant d'outils d'IA disponibles , il est facile d'essayer un autre système. De nombreux générateurs d'images AI permettent des invites négatives ou d'autres options pour ajuster l'algorithme et obtenir de meilleurs résultats.

Vous devrez peut-être effectuer plusieurs tentatives pour obtenir une image utilisable, en particulier si l'accent est mis sur les visages ou les mains. Lorsque vous souhaitez inclure des mots imprimés ou écrits, soyez prêt à passer du temps dans un éditeur d'images à effacer les lettres absurdes de l'IA et à mélanger le texte correct.

La bonne nouvelle est que de nombreux générateurs d'images AI sont gratuits et que les modèles d'abonnement sont relativement peu coûteux. En un an, ces problèmes persistants pourraient être résolus, vous permettant d'utiliser un rendu AI comme une œuvre d'art finie ouen remplacement d'une photographie .