J’ai testé l’avenir de la génération d’images IA. C’est incroyablement rapide.

L’un des principaux problèmes de l’IA est la demande notoirement élevée en matière de puissance et de calcul, en particulier pour des tâches telles que la génération de médias. Sur les téléphones mobiles, lorsqu'il s'agit de fonctionner de manière native, seule une poignée d'appareils coûteux dotés d'un silicium puissant peuvent exécuter la suite de fonctionnalités. Même implémenté à grande échelle sur le cloud, cela reste une affaire coûteuse .

Nvidia a peut-être discrètement relevé ce défi en partenariat avec les gens du Massachusetts Institute of Technology et de l'Université Tsinghua. L’équipe a créé un outil de génération d’images d’IA hybride appelé HART (transformateur autorégressif hybride) qui combine essentiellement deux des techniques de création d’images d’IA les plus largement utilisées. Le résultat est un outil ultra-rapide avec des besoins de calcul considérablement réduits.

Juste pour vous donner une idée de sa vitesse, je lui ai demandé de créer l'image d'un perroquet jouant de la guitare basse. Il est revenu avec l’image suivante en à peine une seconde. Je pouvais à peine suivre la barre de progression. Lorsque j'ai poussé la même invite avant le modèle Imagen 3 de Google dans Gemini , cela a pris environ 9 à 10 secondes sur une connexion Internet à 200 Mbps.

Image d'un perroquet générée par HART.
MIT/HART

Une percée massive

Lorsque les images d'IA ont commencé à faire des vagues, la technique de diffusion était derrière tout cela, alimentant des produits tels que le générateur d'images Dall-E d'OpenAI , Imagen de Google et Stable Diffusion . Cette méthode peut produire des images avec un niveau de détail extrêmement élevé. Cependant, il s’agit d’une approche en plusieurs étapes pour créer des images IA et, par conséquent, elle est lente et coûteuse en termes de calcul.

La deuxième approche qui a récemment gagné en popularité est celle des modèles auto-régressifs, qui fonctionnent essentiellement de la même manière que les chatbots et génèrent des images à l'aide d'une technique de prédiction de pixels. C’est une méthode plus rapide, mais aussi plus sujette aux erreurs, pour créer des images à l’aide de l’IA.

L'équipe du MIT a fusionné les deux méthodes en un seul package appelé HART. Il s'appuie sur un modèle d'autorégression pour prédire les ressources d'images compressées sous forme de jeton discret, tandis qu'un petit modèle de diffusion gère le reste pour compenser la perte de qualité. L'approche globale réduit le nombre d'étapes impliquées de plus de deux douzaines à huit étapes.

Les experts derrière HART affirment qu’il peut « générer des images qui correspondent ou dépassent la qualité des modèles de diffusion de pointe, mais le font environ neuf fois plus rapidement ». HART combine un modèle autorégressif avec une plage de 700 millions de paramètres et un petit modèle de diffusion pouvant gérer 37 millions de paramètres.

Evolution de la formation à l'image pour HART.
MIT/HART

Résoudre la crise du coût informatique

Il est intéressant de noter que cet outil hybride a été capable de créer des images qui correspondaient à la qualité des modèles haut de gamme avec une capacité de 2 milliards de paramètres. Plus important encore, HART a pu atteindre cet objectif à un taux de génération d'images neuf fois plus rapide, tout en nécessitant 31 % de ressources de calcul en moins.

Selon l'équipe, l'approche à faible calcul permet à HART de fonctionner localement sur les téléphones et les ordinateurs portables, ce qui constitue une énorme victoire. Jusqu'à présent, les produits grand public les plus populaires tels que ChatGPT et Gemini nécessitent une connexion Internet pour la génération d'images, car l'informatique se déroule sur les serveurs cloud.

Dans la vidéo de test, l'équipe l'a présenté fonctionnant de manière native sur un ordinateur portable MSI doté du processeur Intel Core Series et d'une carte graphique Nvidia GeForce RTX. C’est une combinaison que vous pouvez trouver sur la majorité des ordinateurs portables de jeu, sans dépenser une fortune.

Analyse comparative des images IA.
MIT/HART

HART est capable de produire des images au format 1:1 avec une résolution respectable de 1 024 x 1 024 pixels. Le niveau de détail de ces images est impressionnant, tout comme la variation stylistique et la précision des paysages. Au cours de leurs tests, l’équipe a noté que l’outil d’IA hybride était trois à six fois plus rapide et offrait un débit sept fois supérieur.

Le potentiel futur est passionnant, en particulier lors de l'intégration des capacités d'image de HART avec des modèles de langage. "À l'avenir, on pourrait interagir avec un modèle génératif de langage de vision unifié, peut-être en lui demandant de montrer les étapes intermédiaires nécessaires à l'assemblage d'un meuble", explique l'équipe du MIT.

Ils explorent déjà cette idée et prévoient même de tester l'approche HART en matière de génération audio et vidéo . Vous pouvez l'essayer sur le tableau de bord Web du MIT.

Quelques aspérités

Avant de nous lancer dans le débat sur la qualité, gardez à l’esprit que HART est avant tout un projet de recherche qui en est encore à ses débuts. Sur le plan technique, il y a quelques tracas soulignés par l'équipe, comme les frais généraux lors du processus d'inférence et de formation.

Échecs de HART.
HART / Nadeem Sarwar

Les défis peuvent être résolus ou négligés, car ils sont mineurs dans l’ensemble des choses ici. De plus, compte tenu des avantages considérables qu'offre HART en termes d'efficacité informatique, de vitesse et de latence, ils pourraient simplement persister sans entraîner de problèmes de performances majeurs.

Au cours de la brève période où j'ai testé HART, j'ai été étonné par la rapidité de génération des images. J'ai à peine rencontré un scénario dans lequel l'outil Web gratuit prenait plus de deux secondes pour créer une image. Même avec des invites s'étendant sur trois paragraphes (environ plus de 200 mots), HART a pu créer des images qui adhèrent étroitement à la description.

Échantillon d'images IA généré avec HART.
HART / Nadeem Sarwar

Outre la précision descriptive, les images contenaient de nombreux détails. Cependant, HART souffre des défauts typiques d’un outil générateur d’images IA. Il a du mal avec les chiffres, les représentations de base comme manger des aliments, la cohérence des personnages et l'échec de la capture de la perspective.

Le photoréalisme dans le contexte humain est un domaine dans lequel j'ai remarqué des échecs flagrants. À quelques reprises, il s’est tout simplement trompé sur le concept des objets de base, comme confondre une bague avec un collier. Mais dans l’ensemble, ces erreurs étaient rares, et fondamentalement attendues. Un bon nombre d'outils d'IA ne parviennent toujours pas à y parvenir, même s'ils existent depuis un certain temps déjà.

Dans l’ensemble, je suis particulièrement enthousiasmé par l’immense potentiel de HART. Il serait intéressant de voir si le MIT et Nvidia en créent un produit, ou adoptent simplement l'approche hybride de génération d'images IA dans un produit existant. Quoi qu’il en soit, c’est un aperçu d’un avenir très prometteur.