La mystérieuse IA « Banane » fait un tabac à l’étranger. Après dix séries de tests intensifs, je pense que le terme « retouche photo » est dépassé.

Au cours du premier semestre, tout le monde était encore émerveillé par « Ghibli Wind Picture » de 4o.

Récemment, un nouveau modèle au mystérieux nom de code nano-banane a fait le buzz sur les réseaux sociaux. Son succès ne tient pas à sa qualité d'image, mais plutôt à ses capacités de retouche photo sans précédent, poussant les internautes à s'exclamer : « C'est de la vraie retouche photo par IA ! »

Quelle est sa puissance ? Par le passé, les méthodes de retouche d'image par IA les plus courantes que nous utilisions étaient probablement l'élimination par IA, qui consiste à effacer les passants sur la photo ; ou le découpage par IA, qui consiste à découper le sujet principal de la photo pour le copier sur d'autres arrière-plans.

Il est désormais possible de générer directement une image sans aucune trace de retouche. Les caractères, l'arrière-plan et même une petite lettre peuvent être modifiés librement, sans aucune intervention de l'IA.

Les images suivantes sont quelques exemples d'utilisation de l'édition nano-banane que nous avons trouvée sur X. Je veux juste dire que cela vaut vraiment la peine d'être populaire.

Source de l'image : X@arrakis_ai

Cet internaute a fourni la photo de la fille ci-dessus, montrant uniquement son profil, et a saisi l'invite « Créer une photo de quelqu'un regardant droit devant ».

L'image de sortie ci-dessous a été générée à l'aide du modèle nano-banane. Ce résultat ressemble à une photo séparée prise simultanément avec un téléphone.

Certains internautes ont également partagé qu'ils avaient ajouté ces deux images et saisi le mot d'invite « Laissez-les prendre un selfie ».

Source de l'image : X@RetropunkAI

Enfin, ma seule photo avec toi ne doit pas forcément être une simple photo de remise de diplôme. La grosse chaîne en or, les boucles d'oreilles et la frange de Billie sont parfaitement visibles. Le visage de Michael, déformé et plein de bruit, a maintenant le même grain de peau net et réaliste que celui de Billie sur le selfie.

Les internautes sur X ont maintes fois salué ce modèle de retouche d'image. À partir de ces captures d'écran, nous avons résumé les fonctionnalités les plus étonnantes de Nano Banana.

  1. La cohérence du caractère est extrêmement forte : peu importe si l'arrière-plan ou l'expression change, le visage ne changera pas, même la courbure des coins de la bouche peut être maintenue.
  2. Logique raisonnable de lumière et d'ombre : Contrairement aux cartes de filtres, elle peut recalculer les sources de lumière et les ombres pour rendre la scène conforme aux lois de la physique.
  3. Photoréalisme : Il n'y a presque aucune trace d'IA et l'effet généré ressemble à « une photo prise par un autre téléphone en même temps ».
  4. Conversion de style naturel : de la restauration de vieilles photos aux croquis, aquarelles et dessins animés, les principales caractéristiques peuvent rester inchangées.

Tout d'abord, la nano banane est qualitativement différente des modèles d'édition d'image précédents dans la mesure où elle peut fondamentalement maintenir le ton et le contenu cohérents de l'ensemble de la photo pendant le processus de conversion d'image et ne générera aucun contenu supplémentaire.

▲ Maintenez une cohérence stylistique optimale. Saisissez les deux images de droite pour obtenir l'image de la publicité du produit à gauche. Source de l'image : X@Dari_Designs

Au-delà de la tonalité des couleurs et du contenu des photos, la cohérence des personnages est essentielle. Qu'il s'agisse de modifier l'arrière-plan ou de transformer l'expression d'un personnage en un sourire, les traits et expressions des personnages générés par nano banana restent pratiquement inchangés, même la courbure de la bouche restant stable.

Par exemple, lorsque nous créons une image en utilisant un caractère fixe, ce caractère peut rester cohérent dans différentes scènes.

▲ L'image originale est à gauche. Saisissez le mot clé et définissez l'arrière-plan sur Tour Eiffel pour obtenir l'image de droite. Source de l'image : X@zan_sihay

Parce qu'il peut maintenir un degré élevé de cohérence dans le ton, l'atmosphère, la scène et le sujet avec l'image d'entrée, certains internautes ont utilisé la nano-banane pour transformer la scène entière en une nouvelle histoire.

▲ L'image originale se trouve en haut à gauche. On commence par saisir les mots clés pour s'asseoir à la table de billard, puis on commence à jouer, formant ainsi un récit complet. Source de l'image : X@D_studioproject

Tout en garantissant un contenu photo de haute qualité, les images générées par Nano Banana sont remarquablement réalistes. Contrairement à la plupart des modèles d'images brutes précédents, qui produisent souvent des images fortement influencées par l'IA, la qualité d'image de Nano Banana se caractérise par son naturel et son réalisme.

▲Dans les images générées par Flux, la texture de la peau est encore visiblement cireuse et pas assez réaliste.

Enfin, nano banana fait un excellent travail de conversion de scènes dans une variété de styles artistiques, notamment l'aquarelle, la peinture à l'huile et les styles de dessin animé, ainsi que des photos réalistes.

▲ Possibilité de « rajeunir » de vieilles photos. Source de l'image : X@DiegoGarey_jpg

Nous avons également testé le mystérieux modèle nano banane dans LMArena pour voir s'il est vraiment aussi puissant.

Adresse d'expérience : https://lmarena.ai/?chat-modality=image (apparaîtra uniquement lorsque vous sélectionnez le mode combat)

Une photo de groupe de remise de diplômes peut également être transformée en une photo juste pour vous deux

Tout d’abord, nous avons trouvé une photo de remise de diplôme pour voir si elle pouvait vraiment générer une photo de deux personnes.

Ça a vraiment marché. Bien que le terrain d'athlétisme généré ne soit pas très similaire, après plusieurs séries de tests, les images générées par Qwen, Flux et Seed montraient toujours plusieurs personnes. Seule nano-banane a compris les instructions et a extrait deux personnes.

Continuons les tests avec des photos ne comportant qu'un visage. Nous utiliserons la photo du début et lui demanderons de générer une photo d'identité sur fond blanc.

Voici six photos. À vous de deviner laquelle est générée par nano-banane, ou laquelle vous préférez.

▲ Ajoutez la photo au début et entrez l'invite : « Générez une photo d'identité standard sur fond blanc d'elle, qui peut être utilisée directement pour la demande de passeport. »

Vous avez bien lu, la première a également été générée par le modèle. Je ne sais vraiment pas quel type de passeport peut utiliser une telle photo.

La réponse est révélée. Bien que la nano-banane soit la plus belle et la plus douce, celle générée par GPT-IMG ressemble davantage à une photo d'identité, car une petite partie de l'oreille est exposée. Flux semble ignorer ce qu'est une photo d'identité. Qwen est une photo d'identité très standard, mais trop « standard », comme si elle ne faisait pas référence à la photo que je lui ai envoyée.

Nous continuons à prendre la photo d'identité générée par nano-banana et lui demandons de générer une photo du corps entier pour que nous puissions voir si elle peut conserver l'apparence d'origine du personnage pendant le processus d'édition de l'IA.

Laissez-moi vous donner la réponse directement. Cette fois, Gemini a plutôt bien performé. Les photos sont très réalistes, et les scènes et les vêtements sont bien assortis. Nano Banana a également bien performé, mais j'ai toujours l'impression que son style est un peu différent de celui de la fille sur la photo d'identité.

Il existe de nombreuses façons de modifier un personnage sur une photo. Par exemple, sur l'image ci-dessous, Musk doit faire un geste de boxe, et le personnage est quasiment copié à 100 %. Les yeux, la forme du visage, le nez et la bouche de Musk sont tous très bien reproduits.

Le traitement d'une seule photo peut permettre une reproduction parfaite, mais comment fonctionne la nano banane lors du traitement de plusieurs photos ?

Nous avons trouvé deux photos avec des visages et avons demandé au modèle de coudre les deux personnes ensemble pour voir si cela pouvait toujours ressembler à une vraie photo sans aucun défaut visible.

▲ Entrez les deux images dans le coin inférieur droit, et l'invite est « Laissez ces deux personnes se battre librement sur le ring de boxe »

Le côté gauche de l'image est celui de Nano-Banane, tandis que le coin supérieur droit représente l'effet généré par Gemini. La différence est nette. Nano-Banane est très réaliste et reconnaissable au premier coup d'œil. Celui en bleu est Zuckerberg.

Nano-banane a également une compréhension étonnante du monde physique

En plus de préserver l'apparence des personnages, la nano banane peut également conserver les objets, les arrière-plans et autres éléments totalement cohérents avec l'image d'entrée.

Par exemple, dans les deux images suivantes de pièces, nous montrons comment allumer les lumières ; puis nous trouvons une autre image pour éteindre les lumières.

Lorsqu'on leur a demandé d'allumer les lumières, nano banana et Flux ont semblé fonctionner correctement à première vue. Cependant, une subtile différence est apparue : nano banana a non seulement activé le lampadaire, mais, plus important encore, a semblé recalculer toute la logique d'éclairage de la pièce. L'ombre sur la table basse n'était plus principalement influencée par la lumière de la fenêtre, mais désormais projetée correctement à l'écart de la nouvelle source lumineuse.

Il ne se contente pas de « coller » un effet lumineux sur une image ; il « comprend » plus précisément les instructions au niveau de l'espace tridimensionnel et des lois physiques, un peu comme le modèle mondial récemment publié par Google, Genie 3. En comparaison, le résultat de Flux ressemble davantage à un filtre ; l'atmosphère est là, mais la logique est un peu discutable.

La différence d'effet est encore plus flagrante lorsqu'on éteint la lumière. Flux fait disparaître directement le lampadaire, tandis que Nano Banana éteint efficacement la lumière et effectue des réglages complets des ombres et des couleurs.

La créativité peut également être maintenue, le texte pur et les images ne sont pas aussi bons que GPT

Le transfert de style est également un atout majeur de Nano Banana. Qu'il s'agisse de colorer des photos en noir et blanc ou de réalisme d'images déformées, Nano Banana est plus performant que les autres modèles de retouche d'image de LMArena.

Le portrait de Lu Xun généré par Flux donne toujours l'impression que la saturation des couleurs n'est pas bien réglée, tandis que celui généré par nano-banana me semble très réel et conserve le sens du temps.

Nous avons également trouvé des captures d'écran de la bande-annonce du film récemment sorti « Les petits monstres de la montagne Langlang » et avons demandé au modèle de passer du style d'animation à d'autres styles.

Cependant, même l'IA peut commettre des erreurs, comme sur cette photo. Nano Banana m'a fourni l'image originale directement, mais Qwen a très bien transposé le style.

Bien sûr, il est également possible que le « style Ghibli » viole certaines règles d'utilisation du modèle, tout comme il n'existe actuellement aucun moyen pour 4o de saisir directement les invites de style Ghibli pour générer des photos.

▲ Toujours la photo du début, l'invite est « Générer un croquis de cette photo »

Nano-banana a une méthode pour gérer le style d'esquisse. L'image en haut à droite est le résultat de l'esquisse réalisée avec nano-banana. Je la trouve meilleure que celle en bas à gauche, car elle ressemble davantage à une esquisse.

De plus, l'objectif de nano-banana est toujours d'être un modèle d'édition d'images, et ses performances en matière de traitement d'images purement textuel ne sont pas exceptionnelles.

Un internaute sur X a utilisé nano-banana pour réaliser un test de génération d'affiches de textures de haute difficulté/complexes, ainsi que de lumière et d'ombre/textures avancées, et le résultat a été que GPT-IMG a gagné.

Source de l'image : X@ZHO_ZHO_ZHO

Nano-banane est actuellement un modèle « inconnu » qui n'apparaît que de manière aléatoire dans des tests contradictoires en aveugle sur LMArena.

Lors de nos tests, nous avons saisi une invite, généré deux images, voté pour la meilleure et finalement révélé laquelle provenait de quel modèle ; parfois, nous ne l'avons pas rencontré cinq ou six fois de suite.

Bien que la source officielle ou le développeur de ce modèle n'ait pas été officiellement confirmé, les discussions sur Internet, ainsi que la texture et la qualité écrasante des images générées, ont conduit la plupart des gens à croire qu'il s'agit probablement d'un projet non divulgué chez Google.

Après tout, Google a l’habitude d’utiliser des noms de code en interne, comme fruits ou snacks.

Lorsque nous avons essayé de lui demander d'afficher le nom de son modèle sur l'écran de l'ordinateur, nano-banane a tapé avec assurance « Gemini Pro ».

La dernière nouvelle est que Logan Kilpatrick, directeur de Google DeepMind, a envoyé un tweet un jour avant la sortie du Google Pixel 10, qui ne contenait qu'un emoji banane, ce qui confirmait essentiellement que ce modèle provenait de Google.

Cette fois, Google a intégré l'outil de retouche photo IA Ask Photos à la série Pixel 10. Il suffit de saisir la demande de retouche souhaitée sur la photo, puis de laisser l'IA la traiter. Plus besoin de sélectionner des curseurs, des pinceaux et autres outils complexes.

Pour éviter l'impact négatif de la falsification d'images, Google a également déclaré que toutes les images modifiées à l'aide des fonctions d'IA seront indiquées dans les informations d'identification de contenu C2PA (Content Source and Authenticity Alliance).

Le blogueur X testingcatalog a publié un article mentionnant que le modèle d'édition d'image nano-banane ne sera pas seulement utilisé dans Gemini et Whisk (produits de génération d'images Google Labs), mais apparaîtra également dans Flow (produit de génération vidéo Google).

En fait, il n’est pas difficile d’imaginer que la fonction image-vidéo de Flow est comme l’édition d’image que nous avons testée, faisant bouger les personnages de l’image.

La fuite mentionne également que Google teste la génération de vidéos avec un rapport hauteur/largeur vertical pour une meilleure visualisation et diffusion sur des plateformes telles que TikTok et YouTube Shorts.

Google a fait preuve de beaucoup de discrétion ces derniers temps, à commencer par le modèle mondial Genie 3, puis sa première place dans l'arène des grands modèles de langage LMArena, et enfin ce mystérieux modèle nano-banane. Cela me rend de plus en plus impatient d'accueillir Gemini 3.

▲Le modèle de Google se classe premier dans plusieurs tâches LMArena

Si 4o représentait à l’époque le summum des images générées par l’IA, la nano-banane a commencé à redéfinir l’édition d’images.

#Bienvenue pour suivre le compte public officiel WeChat d'iFaner : iFaner (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo