Les détails mystérieux du matériel d’OpenAI révélés, j’ai utilisé l’IA pour restaurer la vraie machine et injecter l’âme du design d’Apple

Récemment, un mystérieux matériel d'IA a piqué l'appétit des internautes : ses scénarios d'utilisation et sa fréquence sont comparables à ceux de l'iPhone et du MacBook, mais il n'a pas d'écran, et il ne s'agit pas de lunettes IA, d'écouteurs IA, de broches IA ou d'iPod… Le patron derrière tout cela a même promis de « produire en masse 100 millions d'unités ».

Il est difficile de deviner quel type de « matériel ouvrant de nouvelles pistes » la société io cofondée par le PDG d’OpenAI Altman et l’ancien directeur de la conception d’Apple Ive a utilisé l’IA pour bricoler !

Par conséquent, bien qu'Ultraman ait révélé son intention de lancer officiellement le produit à la fin de l'année prochaine, de nombreux internautes de X ont déjà commencé à penser à utiliser l'IA pour « deviner » l'image . Et s'il connaissait des « informations privilégiées », n'est-ce pas ?

Les détails du premier périphérique matériel d'io sont les suivants :

  1. Pas d'écran, l'interaction avec l'environnement extérieur se fait grâce à une caméra et un microphone intégrés
  2. Le design est similaire à celui de l'iPod Shuffle
  3. Il n'utilise pas de lunettes IA, de smartphones, d'écouteurs et d'autres formes de matériel IA populaires.
  4. Plus grand que la broche AI
  5. Avec un design licou
  6. Peut être lié aux smartphones et aux PC

Sans plus tarder, jetons un œil aux « photos de produits io » publiées par le blogueur de création d'IA Ben Geskin sur X. Près de 9 000 internautes X sont venus les regarder.

En résumé, l'image ci-dessus ne couvre pas seulement ces révélations fondamentales, mais imprime également le logo de son sponsor OpenAI, et conçoit également un facteur de forme de matériel d'IA peu commun – après tout, il ressemble un peu aux rasoirs, masseurs et banques d'alimentation les plus courants…

Ben Geskin Dans la section commentaires de cet article, d'autres internautes X se sont relayés pour publier d'autres styles de « photos de produits io ».

« Version GPT de l'Apple Watch » générée par ChatGPT d'OpenAI :

Les lunettes et les écouteurs dotés d’IA n’ont-ils pas de caméras intégrées ? Est-il donc logique que les montres intelligentes aient des caméras ? Cela a du sens.

« Caméra AI de bureau portable » générée par Grok de xAI :

Comment Google, qui possède le modèle vidéo le plus puissant de la planète, Veo 3, peut-il être absent d’une telle occasion ? Alors, comment fonctionne la dernière version du modèle graphique textuel Imagen 4 de Google ? Jetons d’abord un œil aux Gémeaux.

iFanr a lancé le même ensemble d'invites « prédire les images du produit io » à Gemini équipé d'Imagen 4, ChatGPT équipé de GPT-4o et Grok équipé de Grok-3, puis ils ont chacun donné les images de produit simulées suivantes.

À en juger par les résultats de ce seul cycle de génération, tous les trois couvrent essentiellement les éléments de conception du produit dans les informations divulguées. Parmi eux, les images des produits Gemini et ChatGPT sont plus en phase avec le point de conception de pouvoir être accrochées autour du cou . Comparées aux deux, les images de produits générées par Gemini sont légèrement meilleures en termes de texture visuelle .

Selon la déclaration officielle de Google, Imagen 4 peut présenter plus clairement les détails de l'image tels que la peau, les cheveux et les textures complexes, et est également plus efficace pour créer des images IA « de niveau photo » et « réalistes » . Dans le même temps, il affirme que les images IA générées par Imagen 4 prennent en charge différents rapports hauteur/largeur et ont une résolution allant jusqu'à 2K.

Mais pour être honnête, ce produit io conçu par Gemini « ressemble un peu à une foule ». Plus on le regarde, plus il ressemble à une combinaison d'Apple Watch + broche AI ​​+ cordon de sac d'alpinisme…

De plus, Gemini a également fourni un schéma qui peut refléter le « lien à distance entre les nouveaux produits io et les smartphones et les appareils PC ».

De plus, Imagen 4 peut également répondre aux besoins de création d'images d'IA abstraites .

De plus, le modèle d'IA améliore encore la qualité de sortie en termes d'orthographe et de composition, et peut optimiser la création par l'IA de cartes de vœux, d'affiches, de bandes dessinées et d'autres scènes .

Le contenu anglais imprimé sur l'emballage extérieur de la boîte à œufs est clair, précis et beau :

Dans les bandes dessinées multi-images, l'histoire est continue, les images et les textes correspondent, et les plans éloignés, moyens et rapprochés sont tous pris en compte :

Les bandes dessinées de style pixel qui sont devenues populaires sur Internet récemment peuvent également être saisies :

Imagen 4 est désormais disponible dans Gemini App, Whisk, Vertex AI et les produits PPT, Video, Doc et autres de Workspace.

Selon la conférence Google I/O, Imagen 4 lancera une version rapide plus tard, et sa vitesse de génération d'images IA sera 10 fois supérieure à celle de la génération précédente Imagen 3. Attendons de voir.

Un photographe avec un sens aigu du détail

En termes de restauration des mots-clés rapides et d'exhaustivité du contenu principal de l'image, les principaux modèles d'images littéraires sur le marché peuvent désormais atteindre « le bruit et les yeux » – le niveau global n'est pas très différent.

Par conséquent, en termes de qualité de génération d'images, Google a commencé à entrer dans les détails, affirmant qu'Imagen 4 a des « couleurs plus délicates » et des « détails plus fins ». Cela ne semble pas très réaliste, il faut donc quand même « laisser l’image parler d’elle-même ».

Basé sur le même ensemble de mots d'invite :

Un golden retriever trouve des coquillages sur la plage

iFanr a comparé les effets d'image fournis par le modèle Imagen 4, le modèle de génération précédente d'Imagen 4, Imagen 3, et Doubao Seedream3.0.

Dans cette image IA générée par Imagen 3 , l'expression du golden retriever, la texture des coquillages, les traces des pattes du chien sur la plage, le ciel bleu et les nuages ​​blancs et les vagues caressantes en arrière-plan sont tous très clairs et réalistes.

De plus, si vous regardez attentivement, les poils du golden retriever semblent mouillés par l'eau de mer et sont en touffes.

En fait, lorsque j'ai vu pour la première fois les chefs-d'œuvre générés par Imagen 3, j'étais un peu inquiet qu'Imagen 4 ne soit pas en mesure de gagner.

Cependant, ce dernier n'a pas déçu et a démontré avec une réelle force ce que signifie « lisse et brillant » .

Tout d'abord, d'un point de vue global, les images générées par Imagen 4 ont des tons plus doux et des couleurs plus naturelles, comme le ciel avec un dégradé de bleu ciel et la mer avec des distances profondes et des profondeurs proches.

De plus, d'un point de vue local, les poils du golden retriever regorgent de détails. Non seulement il est plus brillant et la répartition de la lumière et des ombres plus uniforme, mais il restaure également la sensation de peluche , ce qui le rend très agréable à caresser.

Un autre détail qui attire également beaucoup l'attention est celui des yeux du chien . Le golden retriever sur l'image regarde les coquillages sur la plage, ce qui correspond à la « découverte » dans l'invite.

À titre de référence de comparaison, les performances de Doubao sont également très solides. Bien que la couleur générale de l'image ci-dessous soit sombre, l'image est également très riche en détails, comme les vagues agitées par la brise marine, les poils du chien soufflés par la brise marine sont clairement visibles et les pattes du golden retriever sont collées avec beaucoup de sable après avoir déterré la coquille…

Le seul inconvénient est que ces trois images ont toutes un problème similaire : l'arrière-plan et son effet de flou ont toujours une forte saveur d'IA .

Dans l'exemple fourni par Google, Imagen 4 peut même réaliser un « contrôle des détails » au point de « dessiner tout ce que vous pointez ». La fourrure courte et raide du Capybara, les coups de pinceau d’une peinture à l’huile, la lumière et l’ombre des bulles et la structure de la surface d’un cristal peuvent tous être capturés avec précision.

Dans le même temps, en termes de texture d'image et de clarté 2K , certains des produits finis d'Imagen 4 peuvent même rivaliser avec les œuvres photographiques professionnelles.

Un designer à l'esthétique élevée

Lorsque iFanr a demandé à Gemini, qui utilisait la dernière version Flash de Gemini 2.5, de « concevoir un sac en toile avec un écran électronique, disponible en grandes, moyennes et petites tailles », l'assistant IA multimodal a mis environ 10 secondes pour produire le design suivant.

Le dessin de conception affiche intuitivement les deux éléments de conception « sac en toile » et « écran électronique » , et les mots grand, moyen et petit sont marqués dans la colonne de gauche. La zone de droite utilise des objets de référence tels que « tasse d'eau » et « pinceau » pour refléter la différence de taille .

Il convient également de mentionner que les lignes générales de son design extérieur sont lisses et non rigides, et qu'il conserve également une certaine sensation de «peinture à la main» .

Ensuite, iFanr a également demandé à Gemini de préciser la taille spécifique du sac en toile pour écran électronique. À en juger par les résultats générés, les principaux mots anglais et les chiffres romains sont relativement clairs et orthographiés avec précision, mais les parties impliquant des unités anglaises et des signes de ponctuation sont déformées.

Si vous n'êtes pas satisfait du résultat généré, cliquez sur l'option « Mettre à jour » dans l'interface de la boîte de discussion de l'interface utilisateur, Gemini effacera ce résultat généré et réexécutera la sortie en fonction de la nouvelle invite saisie.

Le dessin de conception du produit est prêt, mais il manque un nom de produit. Gemini a aidé à trouver un nom simple et direct, « Canvas Connect ».

Les résultats réels générés par les étapes ci-dessus ne sont pas très différents des mots d'invite, et peu d'endroits doivent être débogués à nouveau.

Cependant, lorsqu'il s'agit de concevoir des affiches et des invitations correspondantes, s'il y a des significations ambiguës dans les invites, les Gémeaux risquent de mal les comprendre.

Gemini a d'abord fourni l'affiche du produit à gauche basée sur le dessin de conception du produit du sac en toile à écran électronique « Canvas Connect ». Ensuite, l’invite lui demande de modifier la palette de couleurs de l’affiche. Les couleurs principales sont le marron et le vert, les autres restent inchangées.

Cependant, comme l'invite ne précisait pas que la couleur du « sac en toile » restait inchangée, Gemini a changé la couleur du sac en toile lorsqu'il a changé la couleur de fond de l'affiche, comme le montre l'image de gauche.

Après avoir réécrit cette invite, Gemini a seulement changé la couleur de l'affiche au lieu du produit, et la couleur du thème est passée du rose au vert. Il faut environ 10 secondes pour réfléchir aux besoins de l'utilisateur derrière l'invite, pour comprendre les besoins correspondants, puis pour générer l'image IA.

De plus, il n’y a aucun changement évident dans les images sur l’écran électronique, les mouvements et les expressions des modèles réels ou le contenu du texte. Ce cas reflète de manière exhaustive le fait que l'image texte du modèle Imagen 4 présente une forte contrôlabilité, une belle mise en page du texte et est généralement réutilisable.

Malheureusement, certains paragraphes ou morceaux de contenu de texte doivent encore s'appuyer sur des invites fines pour contrôler le débogage.

Gémeaux : Papa, le 10086e brouillon du design a été téléchargé. Puis-je pointer maintenant ?

Ne vous inquiétez pas, Imagen 4 possède encore de nombreuses fonctionnalités de conception qui attendent que les internautes les explorent.

iFanr l'a essayé et a découvert qu'il pouvait remplacer directement le modèle réel de l'affiche par un personnage de dessin animé dont la coiffure, la tenue et les mouvements sont plus similaires, qui est l'affiche à l'extrême droite de l'image ci-dessus. C'est aussi une façon de penser à prendre des photos quand on est trop paresseux pour les embellir.

Toutefois, si aucune demande spécifique n'est formulée, la mise en page originale de l'affiche sera modifiée. Cela nécessite actuellement plus d’efforts sur la partie rapide.

Ou vous pouvez choisir une invitation électronique qui est « vivante et intéressante dans son style », « connotative dans son contenu » et « adaptée aux médias sociaux ».

Enfin, n'oubliez pas de demander à Gemini de créer un texte promotionnel avec des emojis et des tags : « Je vous invite à assister ensemble au lancement du nouveau produit Canvas Connect. »  #TechStyle".

#Bienvenue pour suivre le compte public officiel WeChat d'iFanr : iFanr (ID WeChat : ifanr), où du contenu plus passionnant vous sera présenté dès que possible.

iFanr | Lien original · Voir les commentaires · Sina Weibo