DALL-E 3 pourrait faire passer la génération d’images IA au niveau supérieur

2 août 2023 Hibou Gourou

DALL-E 2DALL-E 2 Image sur OpenAI. — OpenAI

OpenAI pourrait préparer la prochaine version de son générateur de texte en image DALL-E AI avec une série de tests alpha qui ont maintenant été divulgués au public, selon le décodeur .

Un leaker anonyme sur Discord a partagé des détails sur son expérience, ayant accès au prochain modèle d'image OpenAI appelé DALL-E 3. Il est apparu pour la première fois en mai, disant à la chaîne Discord basée sur les intérêts qu'il faisait partie d'un test alpha pour OpenAI, essaie un nouveau modèle d'image d'IA. Il a partagé les images qu'il a générées à l'époque.

La version de test alpha de mai avait la capacité de générer des images de plusieurs rapports d'aspect à l'intérieur du modèle d'image. YouTuber, MattVidPro AI a ensuite présenté plusieurs des images qui ont été générées dans un format d'image 16:9. Cette version a également montré les prouesses du modèle pour la production de texte de haute qualité, ce qui continue d'être un problème pour les modèles concurrents, même pour les meilleurs générateurs tels que Stable Diffusion et Midjourney .

Certains exemples présentaient des images, telles que du texte fusionné dans un mur de briques, une enseigne au néon de mots, un panneau d'affichage dans une ville, une décoration de gâteau et un nom gravé dans une montagne. Le modèle soutient que DALL-E est bon pour générer des gens. Une de ces images montrait une femme mangeant des spaghettis lors d'une fête d'un point de vue fisheye.

Le leaker est revenu sur la chaîne Discord à la mi-juillet avec plus de détails et de nouvelles images. Il a prétendu faire partie d'une version de test "alpha fermée" qui comprenait environ 400 sujets. Il a ajouté qu'il avait été invité à l'essai par e-mail et qu'il avait également participé aux tests des DALL-E et DALL-E 2 d'origine. C'est ce qui a conduit à la conclusion que le test alpha pourrait être pour DALL-E 3, bien qu'il n'ait pas été confirmé.

Le modèle a été considérablement mis à jour entre mai et juillet. Le leaker l'a montré en partageant des images générées sur la base de la même invite, montrant à quel point DALL-E 3 est devenu puissant au fil du temps. L'invite lit une peinture d'un bouffon rose donnant un high five à un panda lors d'une compétition cycliste. Les vélos sont en fromage et le sol est très boueux. Ils roulent dans une forêt brumeuse. Le panda est en colère.

L'alpha de mai produit la scène générale qui touche la plupart des points de l'invite. Il y a une petite distorsion dans les mains qui se connectent et les roues des vélos sont jaunes au lieu d'être faites de fromage. Cependant, l'alpha de juillet est beaucoup plus détaillé, avec le bouffon rose et le panda clairement dans les mains et les roues de vélo en fromage sur plusieurs générations.

Pendant ce temps, dans Midjourney, le bouffon est absent de la scène, les pandas sont sur des motos au lieu de bicyclettes. Il y a des routes, au lieu de boue. Les pandas sont heureux au lieu d'être en colère.

Il existe une multitude d'exemples d'images alpha DALL-E du 3 juillet qui montrent le potentiel du modèle. Cependant, le test alpha n'étant pas censuré, le bailleur a noté qu'il pouvait également générer des scènes de "violence et de nudité ou du matériel protégé par le droit d'auteur tel que des logos d'entreprise".

Quelques exemples incluent une fille animée sanglante, un personnage de Game of Thrones , une couverture de Grand Theft Auto V , un zombie Jésus mangeant un sandwich Subway, suggérant également un gore léger, et Shrek étant déterré d'une fouille archéologique, entre autres.

MattVidPro AI a noté que le modèle d'image génère des images comme si elles étaient censées être dans un style spécifique.

DALL-E 2 a été lancé en avril 2022 mais était fortement réglementé avec une liste d'attente en raison de sa popularité et des préoccupations concernant l'éthique et la sécurité. Le générateur d'images AI est devenu accessible au public en septembre 2022.