Le nouveau modèle d’IA de Meta peut transformer du texte en images 3D en moins d’une minute

3 juillet 2024 Hibou Gourou

un tableau d'images générées en 3D réalisées par Meta 3D Gen — Méta

La dernière incursion de Meta dans la génération d’images IA est rapide. La société a présenté mardi son nouveau modèle « 3D Gen » , un « pipeline rapide et de pointe » permettant de transformer le texte saisi en images 3D haute fidélité pouvant les produire en moins d'une minute.

De plus, le système serait capable d'appliquer de nouvelles textures et skins aux images générées et produites par les artistes à l'aide d'invites textuelles.

Selon une étude récente de l'équipe de recherche Meta Gen AI, 3D Gen offrira non seulement à la fois des textures et des cartes de matériaux haute résolution, mais prendra également en charge le rendu basé sur la physique (PBR) et les capacités de retexturation générative.

Nouvelle recherche de GenAI chez Meta, présentant Meta 3D Gen : un nouveau système de génération de bout en bout d'actifs 3D à partir de texte en <1 min.
Meta 3D Gen est un nouveau système d'IA combiné capable de générer des ressources 3D de haute qualité, avec à la fois des textures haute résolution et des cartes de matériaux de bout en bout,… pic.twitter.com/rDD5GzNinY
— L'IA chez Meta (@AIatMeta) 2 juillet 2024

L'équipe estime un temps d'inférence moyen de seulement 30 secondes pour créer le modèle 3D initial à l'aide du modèle 3D AssetGen de Meta. Les utilisateurs peuvent ensuite revenir en arrière et affiner la texture du modèle existant ou la remplacer par quelque chose de nouveau, via des invites textuelles, en utilisant Meta 3D TextureGen, un processus qui, selon l'entreprise, ne devrait pas prendre plus de 20 secondes supplémentaires de temps d'inférence.

"En combinant leurs forces", a écrit l'équipe dans son résumé d'étude, "3DGen représente les objets 3D simultanément de trois manières : dans l'espace de visualisation, dans l'espace volumétrique et dans l'espace UV (ou texture)." L'équipe Meta a comparé son modèle 3D Gen à un certain nombre de références de l'industrie et l'a comparé en fonction de divers facteurs, notamment la fidélité des invites de texte, la qualité visuelle, les détails de texture et les artefacts. En combinant les fonctions des deux modèles, les images générées par le processus intégré en deux étapes ont été sélectionnées par les annotateurs plutôt que leurs homologues en une seule étape dans 68 % des cas.

Certes, le système discuté dans cet article est encore en cours de développement et n’est pas encore prêt à être utilisé par le public, mais les avancées techniques illustrées par cette étude pourraient s’avérer transformationnelles dans un certain nombre de disciplines créatives, depuis les effets de jeux et de films jusqu’aux applications de réalité virtuelle.

Donner aux utilisateurs la possibilité non seulement de créer mais aussi de modifier du contenu généré en 3D, à la fois rapidement et intuitivement, pourrait considérablement réduire les barrières à l’entrée pour de telles activités. Il n’est pas difficile d’imaginer l’impact que cela pourrait avoir sur le développement de jeux, par exemple.