OpenAI présente son modèle de raisonnement o3 « révolutionnaire » de nouvelle génération
Pour la finale de son événement de diffusion en direct 12 Days of OpenAI , le PDG Sam Altman a dévoilé son prochain modèle de base et le successeur de la famille d'IA de raisonnement o1 récemment annoncée, baptisée o3 et 03-mini.
Et non, vous ne devenez pas fou : OpenAI a ignoré o2, apparemment pour éviter de violer les droits d'auteur du fournisseur de télécommunications britannique O2.
Bien que les nouveaux modèles o3 ne soient pas encore rendus publics et que l'on ne sache pas quand ils seront intégrés à ChatGPT , ils sont désormais disponibles pour être testés par des chercheurs en sûreté et sécurité.
o3, notre dernier modèle de raisonnement, constitue une percée, avec une amélioration progressive de la fonction par rapport à nos benchmarks les plus difficiles. nous commençons les tests de sécurité et équipe rouge maintenant. https://t.co/4XlK1iHxFK
— Greg Brockman (@gdb) 20 décembre 2024
La famille o3, comme les o1 avant elle, fonctionne différemment des modèles génératifs traditionnels dans la mesure où elle vérifie en interne ses réponses avant de les présenter à l'utilisateur. Bien que cette technique ralentisse le temps de réponse du modèle de quelques secondes à quelques minutes, ses réponses aux requêtes scientifiques, mathématiques et de codage complexes ont tendance à être plus précises et fiables que celles que vous obtiendriez de GPT-4 . De plus, le modèle est réellement capable d’expliquer de manière transparente son raisonnement sur la manière dont il est arrivé à son résultat.
Les utilisateurs peuvent également ajuster manuellement le temps que le modèle passe à étudier un problème en choisissant entre un calcul faible, moyen et élevé, le paramètre le plus élevé renvoyant les réponses les plus complètes. Cette performance n’est pas bon marché, remarquez. Le traitement à haut niveau de calcul coûterait des milliers de dollars par tâche, a écrit François Chollet, co-créateur d'ARC-AGI, dans un article publié vendredi.
Aujourd'hui, OpenAI a annoncé o3, son modèle de raisonnement de nouvelle génération. Nous avons travaillé avec OpenAI pour le tester sur ARC-AGI, et nous pensons que cela représente une avancée significative pour permettre à l'IA de s'adapter à de nouvelles tâches.
Il obtient un score de 75,7 % à l'évaluation semi-privée en mode faible calcul (pour 20 $ par tâche… pic.twitter.com/ESQ9CNVCEA
— François Chollet (@fchollet) 20 décembre 2024
La nouvelle famille de modèles de raisonnement offrirait des performances considérablement améliorées par rapport à o1, qui a fait ses débuts en septembre , lors des tests de référence les plus exigeants du secteur. Selon la société, o3 surpasse son prédécesseur de près de 23 points de pourcentage au test de codage SWE-Bench Verified et obtient un score de plus de 60 points supérieur à o1 sur le benchmark de Codeforce. Le nouveau modèle a également obtenu un score impressionnant de 96,7 % au test de mathématiques AIME 2024, ne manquant qu'une seule question, et a surpassé les experts humains au GPQA Diamond, obtenant un score de 87,7 %. Plus impressionnant encore, 03 aurait résolu plus d'un quart des problèmes présentés sur le benchmark EpochAI Frontier Math, alors que d'autres modèles ont eu du mal à résoudre correctement plus de 2 % d'entre eux.
OpenAI note que les modèles présentés vendredi sont encore des versions précoces et que « les résultats finaux pourraient évoluer avec davantage de post-formation ». L'entreprise a en outre intégré de nouvelles mesures de sécurité « d'alignement délibératif » dans la méthodologie de formation d'o3. Le modèle de raisonnement o1 a montré une habitude troublante consistant à essayer de tromper les évaluateurs humains à un rythme plus élevé que les IA conventionnelles comme GPT-4o, Gemini ou Claude ; OpenAI estime que les nouveaux garde-corps contribueront à minimiser ces tendances dans o3.
Les membres de la communauté de recherche intéressés à essayer o3-mini par eux-mêmes peuvent s'inscrire pour y accéder surla liste d'attente d'OpenAI .