La mystérieuse IA « Banana » est officiellement en ligne ! Le nouveau roi de la retouche photo de Google explose tard dans la nuit Voici comment l’essayer.

28 août 2025 Hibou Gourou

Vous souvenez-vous du mystérieux modèle d'édition d'images IA « nano-banane » dont tout le monde parlait auparavant ?

Il y a quelques jours, nous avons mené plusieurs séries de tests avec lui dans l'arène du grand modèle de langage LMArena , et les résultats ont été excellents.

Aujourd’hui, Google a enfin dévoilé ses secrets.

▲ Logan Kilpatrick, directeur de Google AI Studio, a tweeté le lancement officiel du modèle d'image Flash Gemini 2.5

Google a officiellement lancé Gemini 2.5 Flash Image, son modèle de génération et d'édition d'images le plus avancé.

▲ Classé premier sur de nombreuses listes, notamment la liste LMArena, où il est presque loin devant

Dans un blog technique mis à jour, Google a mentionné que le précédent Flash Gemini 2.0 était apprécié par les développeurs pour sa faible latence et sa grande rentabilité dans la génération d'images, mais les utilisateurs attendaient également avec impatience des images de meilleure qualité et des fonctions de contrôle créatif plus puissantes .

Gemini 2.5 Flash Image répond à ces attentes avec une série de mises à jour majeures.

Comme dans notre expérience précédente, les principales fonctionnalités de Gemini 2.5 Flash Image sont les suivantes :

Maintenir une cohérence totale des rôles
Édition d'images basée sur des indices
Tirer parti des connaissances concrètes de Gemini
Fusion d'images multiples

Une image raconte une histoire : changez les personnages et les scènes à votre guise

L'un des principaux problèmes des précédents outils de rendu basés sur l'IA était la difficulté à maintenir un rendu cohérent des personnages ou des objets. Nous avons tous connu ce problème : essayer de représenter le même personnage dans différentes scènes pour ensuite voir le rendu changer radicalement, donnant l'impression d'une personne complètement différente à chaque fois.

Gemini 2.5 Flash Image résout complètement ce problème.

▲ Source de l'image : X@geminiap

Il permet de placer facilement un même personnage dans différents environnements ou de présenter un même produit sous plusieurs angles, tout en conservant parfaitement son sujet principal. Google a indiqué qu'il s'agissait d'une fonctionnalité révolutionnaire pour les scénarios nécessitant de raconter une histoire continue, de générer des ressources pour des séries de marques ou de créer des catalogues de produits.

Pour démontrer cette capacité, Google AI Studio fournit également une application modèle afin que les développeurs puissent démarrer rapidement et même effectuer un développement secondaire basé sur celle-ci.

▲ Adresse de l'expérience : https://aistudio.google.com/apps/bundled/past_forward

Dans ce projet d’expérience, nous n’avons pas besoin de saisir de mots d’invite, il suffit de télécharger une photo de portrait, et il appellera le dernier modèle d’image pour générer des photos pour nous de différentes années telles que 1976 à 1990.

Quand Musk a vu à quel point il était beau, il a dû penser : « Mon Grok peut faire ça aussi. »

Retouchez des photos en une phrase avec un langage naturel

Outre une génération de caractères hautement cohérente, la précision de l'édition est également un atout majeur. Gemini 2.5 Flash Image permet d'apporter des modifications locales précises aux images grâce à des commandes simples en langage naturel.

Comme flouter l'arrière-plan d'une photo, enlever des taches sur un t-shirt, retirer quelqu'un d'une photo de groupe, changer la pose d'une personne, coloriser une photo en noir et blanc…

Tout cela ne nécessite plus d'opérations logicielles professionnelles complexes et fastidieuses. Il suffit d'indiquer à l'IA ce que nous voulons faire en une seule phrase, comme pour chatter.

C'est la même expérience que nous avons eue auparavant à LMArena, où nous avons également changé le style de la photo du noir et blanc à la couleur, et apporté des ajustements subtils à la photo.

▲ Source de l'image : X@geminiapp

Google a également conçu une application simple pour nous aider à mieux expérimenter cette édition d'image basée sur des invites, mais l'effet est tout à fait comparable à celui du logiciel PS.

▲ Adresse de l'expérience : https://aistudio.google.com/apps/bundled/pixshop

Non seulement vous pouvez dessiner, mais vous pouvez également « comprendre » le monde

Bien que les modèles d’images du passé puissent créer de belles images, ils manquent souvent d’une compréhension sémantique profonde du monde réel.

Gemini 2.5 Flash Image utilise la puissante base de connaissances mondiales de Gemini pour rendre la génération d'images plus « intelligente ».

Cela signifie que le modèle peut non seulement comprendre nos diagrammes dessinés à la main, mais peut également répondre à des questions liées au monde réel et exécuter des instructions d'édition complexes en une seule étape.

▲ Adresse de l'expérience : https://aistudio.google.com/apps/bundled/codrawing

Cela ressemble beaucoup à du raisonnement multimodal. Google a présenté une application éducative interactive dans AI Studio qui transforme un simple canevas en un tuteur intelligent capable de répondre à des questions. J'admire sincèrement la puissance de ce modèle.

Fusion d'images : réalisez facilement un collage « sans couture »

Le nouveau modèle apporte également une fonctionnalité intéressante : la fusion multi-images. Nous pouvons « placer » des objets d'une image dans la scène d'une autre image, ou utiliser le style d'une image pour restituer une autre pièce, le tout avec une seule invite.

Il s'agit également d'une application d'expérience de modèle dans Google AI Studio. Il suffit de glisser-déposer le produit dans la nouvelle scène pour générer rapidement une image fusionnée, homogène et fidèle à une vraie photo.

▲ Adresse de l'expérience : https://aistudio.google.com/apps/bundled/home_canvas

Dans ce modèle d'application, nous n'avons même pas besoin de saisir de mots clés. Nous pouvons directement faire glisser un objet vers un emplacement spécifique de l'image de la scène, et une image fusionnée sera automatiquement générée.

Comment commencer ?

En plus des applications modèles dans Google AI Studio que nous avons mentionnées précédemment.

Actuellement, l'image Flash Gemini 2.5 est accessible via l'application Gemini, l'API Gemini, Google AI Studio et Vertex AI.

Concernant l'appel de l'API, le prix spécifique est de 30 USD par million de jetons de sortie. Selon l'introduction officielle, la génération d'une image consomme environ 1 290 jetons de sortie, ce qui signifie que le coût de chaque image est d'environ 0,039 USD, soit moins de 0,30 RMB .

Il convient de mentionner que toutes les images créées ou modifiées via Gemini 2.5 Flash Image contiendront le filigrane numérique invisible SynthID pour les identifier comme contenu généré ou modifié par l'IA.

Il s'agit du même justificatif de contenu C2PA (Content Provenance and Authenticity Alliance) que Google a utilisé lors du lancement de la série de téléphones mobiles Pixel 10 il y a quelques jours et a parlé de l'outil d'édition d'images AI Ask Photo.

Enfin, Google a également mentionné qu'il travaillait dur pour améliorer les performances du modèle en termes de rendu de texte long , de stabilité de la cohérence des caractères et d'authenticité des détails de l'image.

En bref, la sortie de Gemini 2.5 Flash Image a fait passer l'outil d'image IA d'un simple jouet de peinture à un outil de créativité et de productivité véritablement pratique.

Il résout non seulement de nombreux problèmes que nous avons rencontrés lors de l'utilisation du dessin IA dans le passé, mais apporte également de nouvelles façons de jouer plus intéressantes et plus pratiques.

Avant l'arrivée de la fonctionnalité de génération de 40 images, j'ai vu de nombreuses applications se concentrer sur la création d'un poème chaque jour à partir d'une seule image. Il y avait aussi des applications comme CapWords, qui a remporté l'Apple Design Award cette année. Prenez une photo de votre quotidien et apprenez une nouvelle langue dans la vraie vie…

J'ai hâte de voir quelles nouvelles applications seront créées sur la base du modèle Gemini 2.5 Flash Image.

#Bienvenue pour suivre le compte public officiel WeChat d'iFaner : iFaner (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo