ChatGPT interprète désormais les photos mieux qu’un critique d’art et un enquêteur réunis

17 avril 2025 Hibou Gourou

Les récentes capacités de génération d'images de ChatGPT ont remis en question notre compréhension antérieure des médias générés par l'IA. Le modèle GPT-4o récemment annoncé démontre des capacités remarquables à interpréter des images avec une grande précision et à les recréer avec des effets viraux, comme celui inspiré du Studio Ghibli . Il maîtrise même le texte dans les images générées par l'IA , ce qui était auparavant difficile pour l'IA. Et maintenant, il lance deux nouveaux modèles capables de disséquer les images à la recherche d’indices pour recueillir bien plus d’informations qui pourraient même échouer au regard humain.

OpenAI a annoncé deux nouveaux modèles plus tôt cette semaine qui améliorent les capacités de réflexion de ChatGPT. Son nouveau modèle o3, qu'OpenAI appelle son « modèle de raisonnement le plus puissant », améliore les capacités d'interprétation et de perception existantes, s'améliorant en « codage, mathématiques, sciences, perception visuelle, etc. », affirme l'organisation. Pendant ce temps, l'o4-mini est un modèle plus petit et plus rapide pour un « raisonnement rentable » dans les mêmes domaines. Cette nouvelle fait suite au récent lancement par OpenAI de la classe de modèles GPT-4.1, qui apporte un traitement plus rapide et un contexte plus profond.

ChatGPT « pense désormais avec des images »

Grâce à l'amélioration de leurs capacités de raisonnement, les deux modèles peuvent désormais incorporer des images dans leur processus de raisonnement, ce qui les rend capables de « penser avec des images », proclame OpenAI . Avec ce changement, les deux modèles peuvent intégrer des images dans leur chaîne de pensée. Allant au-delà de l'analyse de base des images, les modèles o3 et o4-mini peuvent étudier les images de plus près et même les manipuler via des actions telles que le recadrage, le zoom, le retournement ou l'enrichissement des détails pour extraire des indices visuels des images qui pourraient potentiellement améliorer la capacité de ChatGPT à fournir des solutions.

Présentation d'OpenAI o3 et o4-mini, nos modèles les plus intelligents et les plus performants à ce jour.
Pour la première fois, nos modèles de raisonnement peuvent utiliser et combiner de manière agent tous les outils de ChatGPT, y compris la recherche sur le Web, Python, l'analyse d'images, l'interprétation de fichiers et la génération d'images. pic.twitter.com/rDaqV0x0wE
– OpenAI (@OpenAI) 16 avril 2025

Avec cette annonce, il est dit que les modèles mélangent le raisonnement visuel et textuel, qui peuvent être intégrés à d'autres fonctionnalités de ChatGPT telles que la recherche sur le Web, l'analyse de données et la génération de code, et devraient devenir la base d'agents d'IA plus avancés avec analyse multimodale.

Entre autres applications pratiques, vous pouvez vous attendre à inclure des images d'une multitude d'éléments, tels que des organigrammes ou des gribouillages allant de notes manuscrites à des images d'objets du monde réel, et vous attendre à ce que ChatGPT ait une compréhension plus approfondie pour un meilleur résultat, même sans invite de texte descriptive. Avec cela, OpenAI se rapproche du Gemini de Google, qui offre la capacité impressionnante d' interpréter le monde réel via la vidéo en direct .

Malgré des affirmations audacieuses, OpenAI limite l'accès aux seuls membres payants, probablement pour empêcher ses GPU de « fondre » à nouveau, car il a du mal à répondre à la demande de calcul pour de nouvelles fonctionnalités de raisonnement. À partir de maintenant, les modèles o3, o4-mini et o4-mini-high seront exclusivement disponibles pour les membres de ChatGPT Plus, Pro et Team, tandis que les utilisateurs des niveaux Enterprise et Education les obtiendront dans une semaine. Pendant ce temps, les utilisateurs gratuits pourront avoir un accès limité à o4-mini lorsqu'ils sélectionneront le bouton « Réfléchir » dans la barre d'invite.