La génération d’images IA vient de faire un grand pas en avant

Nous vivons depuis un certain temps déjà avec des images générées par l'IA, mais cette semaine, certains des principaux acteurs ont fait de grands pas en avant. Je parle notamment des mises à jour importantes de Midjourney , du nouveau modèle de Google, et de Grok .

Chaque entreprise montre que la technologie évolue à des rythmes différents et dans des directions différentes. Les règles du jeu restent largement ouvertes et chaque entreprise démontre à quel point les progrès ont été réalisés.

Midjourney arrive sur le Web

Le professeur Dumbledore au bord d'une piscine dans Harry Potter de Wes Anderson.
Une image IA générée dans Midjourney. Canal/Milieu du parcours

Commençons par Midjourney, qui a discrètement déployé jeudi soir un nouvel éditeur Web qui rassemble un certain nombre d'outils utiles de manipulation d'images dans une seule interface utilisateur.

Auparavant, des fonctions telles que le recadrage, la repeinture (ajout d'actifs générés par l'IA ou modification d'une image existante), le panoramique, l'extension du canevas (élargissement des limites de l'image et génération de contenu à remplir) et le zoom nécessitaient toutes leur propre outil spécifique à utiliser et à utiliser. étaient situés dans plusieurs menus, obligeant les créateurs à basculer constamment d'avant en arrière. Cette nouvelle interface utilisateur offre un processus d'édition plus cohérent et rationalisé, un changement marqué par rapport au lancement du programme sur Discord.

Le nouvel éditeur Web est conçu pour rendre l'édition des images générées par l'IA plus facile et plus transparente, selon David Holz, PDG de Midjourney, sur Discord récemment. "Nous pensons que cela rend l'édition de vos images MJ beaucoup plus transparente qu'auparavant et constitue un énorme pas en avant", a-t-il écrit.

Bien que Midjourney continue de migrer de Discord vers une application Web, la société a également annoncé qu'elle refléterait les messages de chaînes populaires telles que « thème quotidien », « prompt-craft » et « général-1 » entre ses sites Web. des salles et des chaînes Discord afin que les gens puissent suivre ces fils de discussion depuis la plateforme de leur choix. La société a également introduit un nouvel outil de sélection qui fonctionne comme un pinceau numérique et qui remplace les outils de sélection carrée et de lasso.

Le nouvel éditeur est disponible pour tous les utilisateurs de Midjourney ayant déjà généré plus de 10 images sur la plateforme. Les premières réactions de la communauté des créateurs ont été largement positives.

L'éditeur arrive deux semaines après la sortie de Midjourney 6.1 , qui a amélioré la qualité et la cohérence de l'image (comme le nombre correct de doigts), ainsi que les temps de traitement considérablement améliorés et la compréhension de la précision du texte dans ses invites d'image.

Grok-2 libère le monstre

La mise à jour Midjourney intervient également deux jours seulement après la sortie de Grok-2 par la startup xAI d'Elon Musk, qui est la prochaine grande chose qui s'est produite cette semaine.

Les capacités de génération d'images de Grok sont alimentées par le modèle Flux.1 de Black Forrest Lab, qui a rapidement gagné en popularité en raison de sa qualité d'image impressionnante et de son utilisation gratuite.

La plus grande controverse concernant Grok-2 n’est pas seulement sa qualité, qui est plutôt bonne, mais aussi ses lignes directrices apparemment indéfinies. Contrairement à la plupart des autres générateurs d'images IA, Grok-2 semble avoir très peu de directives concernant la propriété intellectuelle, la violence et autres contenus explicites. Ce n'est pas la première fois qu'un générateur d'images d'IA constate ce type d'erreur, mais avec Grok, cela semble intentionnel, Musk l'appelant « l'IA la plus amusante au monde ».

Les gens ont déjà testé ses limites et créé toutes sortes d’images horribles et bizarres, évoquant les débuts de la génération d’images par l’IA. Mais si l’on en croit la rhétorique de Musk, le manque de directives de Grok-2 semble utile et pourrait finir par façonner l’évolution de cette technologie à l’avenir.

Google devient compétitif avec Imagen 3

Une image IA générée par le modèle Imagen-3 de Google. Google

Enfin, Google a annoncé son nouveau modèle Imagen 3 AI , qui a été rendu public jeudi à tous les utilisateurs américains . Google l'appelle son « modèle de conversion texte-image de la plus haute qualité », désormais capable de produire « de meilleurs détails, un éclairage plus riche et peu d'artefacts gênants que nos modèles précédents ». Google affirme également qu'Imagen-3 est meilleur pour restituer le texte et est désormais disponible en différentes versions, conçues pour la tâche à accomplir, comme quelque chose de léger comme un croquis rapide ou quelque chose de beaucoup plus détaillé et haute résolution.

Pour l'instant, Imagen 3 n'est disponible que via AI Test Kitchen de Google, dans le cadre d'ImageFX. Il s'agit actuellement d'une version bêta fermée, ce qui signifie que vous devrez rejoindre la liste d'attente si vous n'êtes pas déjà participant.