Tout à l’heure, OpenAI a publié o3 ! Repoussant à nouveau les limites de l’IA, les anciens élèves de l’Université de Pékin participent à la recherche et au développement


Tout à l'heure, OpenAI a inauguré la finale du gala de fin d'année du Festival du printemps de l'IA.

Les modèles de la série o3 publiés cette fois sont des versions itératives de o1. Considérant qu'il peut y avoir des conflits de droits d'auteur ou de marque avec l'opérateur de télécommunications britannique O2, OpenAI a décidé d'ignorer le nom « o2 » et d'adopter directement « o3 ».

Pour cette raison, Sam Altman, PDG d'OpenAI, s'est même moqué de la confusion de l'entreprise dans la dénomination des modèles. Il s'avère que vous le savez aussi.

La conférence était animée par Sam Altman, vice-président principal de la recherche Mark Chen, et par le chercheur Hongyu Ren.

Il convient de noter que Ren Hongyu est diplômé de l'Université de Pékin avec un baccalauréat. Il a apporté des contributions fondamentales à o1 et est également le développeur principal de GPT-4o. Il possède une vaste expérience de stage de recherche chez Apple, Microsoft et Nvidia.

La série o3 comprend deux modèles à succès :

  • OpenAI o3 : version phare aux performances puissantes
  • OpenAI o3 mini : modèle léger, mais plus rapide et moins cher, axé sur la rentabilité

Ne vous réjouissez pas trop vite, car la série o3 n'est actuellement pas ouverte aux utilisateurs ordinaires. OpenAI prévoit d'abord d'ouvrir des applications pour des tests de sécurité externes, et la sortie officielle est prévue pour janvier de l'année prochaine.

Désormais, les amis intéressés peuvent soumettre une candidature :
https://openai.com/index/early-access-for-safety-testing/

o3 Gros saut de performance, mémorisation par cœur ? n'existe pas

Les « paramètres papier » du modèle o3 ont été améliorés à tous égards.

Premièrement, dans le test de référence SweepBench Verified, o3 a atteint une précision d'environ 71,7 %, devançant directement le modèle o1 de 20 %.

Passant au domaine du codage, o1 a un score de 1891 sur la plateforme de concours de codage Codeforces. Et o3 peut obtenir jusqu'à 2727 lorsqu'il fonctionne à pleine vitesse et prolonge le temps de réflexion.

Pour référence, le score du démonstrateur Mark Chen n'est que de 2500, ce qui démontre pleinement que le modèle o3 a la capacité d'approcher voire de surpasser les programmeurs professionnels humains.

Dans le domaine des mathématiques, o3 fonctionne également bien.

Dans le test AIME 2024 de l'American Mathematics Competition, o3 a complètement écrasé les 83,3 % de o1 avec une précision de 90,67 %.

Dans le test GPQA Diamond, qui mesure la capacité à répondre à des questions scientifiques de niveau doctorat, o3 a obtenu un score de 87,7 %, tandis que o1 n'a obtenu que 78 %.

Quelle notion ? Vous savez, même les doctorants dans le domaine ne peuvent souvent atteindre qu'une précision d'environ 70 % dans le cadre de leur propre expertise.

Face à la situation où le test de référence actuel est proche des scores complets, OpenAI a introduit un nouveau test de mathématiques EpochAI Frontier Math.

Ceci est considéré comme l’une des évaluations mathématiques les plus difficiles actuellement disponibles, contenant des questions extrêmement complexes. Même les mathématiciens professionnels peuvent passer des heures, voire des jours, à résoudre un seul problème.

Actuellement, la précision de tous les modèles existants sur ce test est inférieure à 2 %, mais dans le cadre d'un test à long terme avec une puissance de calcul élevée, o3 peut atteindre un score supérieur à 2 457.

En parlant d'AGI, le Saint Graal dans le domaine de l'IA, il faut mentionner ARC-AGI, un test de référence qui mesure spécifiquement l'AGI.

ARC-AGI a été développé par François Chollet, le père de Keras, et teste principalement la capacité de raisonnement du modèle à travers un raisonnement logique graphique.

Lorsque le présentateur a posé une question impromptue à un autre présentateur, Mark Chen, ce dernier a identifié les exigences de la tâche : compter le nombre de petits carrés colorés dans chaque carré jaune et générer la bordure correspondante en conséquence.

Ces tâches simples pour les humains constituent un problème difficile pour l’IA.

De plus, chaque tâche d'ARC-AGI nécessite des compétences différentes et évite délibérément la duplication, ce qui élimine complètement la possibilité que le modèle s'appuie sur un « apprentissage par cœur » et teste véritablement la capacité du modèle à apprendre et à appliquer de nouvelles compétences en temps réel.

Désormais, o3 marque 75,7 points dans une configuration à faible puissance de calcul. Lorsqu'il a été demandé à o3 de réfléchir plus longtemps et d'augmenter sa puissance de calcul, o3 a obtenu un score de 87,5 % sur le même ensemble réservé caché, dépassant de loin la plupart des personnes réelles.

L'implication d'OpenAI est qu'o3 nous rapprochera encore plus de l'AGI.

o3 mini est sorti, plus rapide et moins cher

En septembre de cette année, OpenAI a lancé o1 mini, doté de solides capacités mathématiques et de programmation à un coût extrêmement faible.

Poursuivant cette direction de développement, l'o3 mini lancé aujourd'hui conserve également les caractéristiques ci-dessus. Désormais, le modèle est ouvert aux tests d'applications uniquement aux chercheurs en sécurité, avec une date limite fixée au 10 janvier.

o3 mini prend en charge trois modes de temps d'inférence : faible, moyen et élevé.

Les utilisateurs peuvent ajuster de manière flexible le temps de réflexion du modèle en fonction de la complexité de la tâche. Par exemple, des problèmes complexes peuvent nécessiter un temps de réflexion plus long, tandis que des problèmes simples peuvent être traités rapidement.

À en juger par le premier lot de résultats d'évaluation, dans le score Elo de Codeforces, qui mesure la capacité de programmation, à mesure que le temps d'inférence augmente, son score Elo continue d'augmenter, dépassant le o1 mini à un temps d'inférence moyen.

Le présentateur a demandé au modèle de créer un générateur et un exécuteur de code en utilisant Python, un script qui démarre le serveur et crée une interface utilisateur locale. Les utilisateurs peuvent saisir une demande de code dans la zone de texte, et le système enverra la demande à l'API dans trois modes avancés pour générer et exécuter le code correspondant.

Par exemple, lorsqu'on lui a demandé de générer un code contenant OpenAI et des nombres aléatoires, le mode d'inférence moyenne de l'o3 mini a rapidement complété le processus.

De plus, il peut se tester. Par exemple, dans le test d'ensemble de données GPQA, le modèle a complété l'évaluation d'ensembles de données complexes en mode d'inférence faible.

Il télécharge le fichier original, identifie le CSS, les réponses et les options, organise les questions et réponses et enfin note, complétant l'auto-évaluation en seulement une minute avec une précision de 61,62 %.

Dans le domaine des mathématiques, o3 mini fonctionne également bien.

Dans le test de référence mathématique AIME, son mode d'inférence faible a atteint des performances comparables à o1 mini, et son mode d'inférence moyen a dépassé o1 mini avec une latence plus faible.

De plus, en réponse à la voix des développeurs, le modèle o3 mini prendra également entièrement en charge les fonctions API telles que les appels de fonction, la sortie structurée et les instructions du développeur.

Désormais, le canal de candidature pour o3 mini et o3 est désormais ouvert. L'o3 mini devrait être lancé à tous les utilisateurs en janvier, et la version complète de l'o3 sera publiée plus tard.

Au final, lors de cette conférence de fin d'année de 12 jours, OpenAI a enfin montré son atout.

On peut dire que la sortie du modèle o3 a apporté une conclusion inattendue mais raisonnable à cette conférence de presse qui était autrefois coincée dans le dilemme « ouvrir haut et descendre bas ».

En moins de 3 mois, OpenAI a achevé la mise à niveau itérative du modèle o1.

Cette transformation de la série GPT vers la série o est évidemment un choix stratégique soigneusement réfléchi par OpenAI, et les résultats ultérieurs prouvent également que cette décision est judicieuse.

Cependant, il convient de noter que le PDG de Microsoft, Satya Nadella, a récemment déclaré dans un podcast qu'OpenAI avait environ deux ans d'avance sur ses concurrents dans le domaine de l'IA.

C’est cet environnement concurrentiel relativement détendu qui permet à OpenAI de se concentrer sur le développement de ChatGPT.

Cependant, la situation actuelle évolue tant sur le plan offensif que défensif.

Le rapport de Menlo Ventures montre que la part de marché de ChatGPT est progressivement érodée par les autres concurrents, passant de 50 % en 2023 à 34 % en 2024.
De « standard » à « facultatif », le halo de ChatGPT s'estompe.

La raison derrière cela est évidente. Les « douves » d’OpenAI sont comblées petit à petit par des concurrents qui courent sauvagement.

Les données de recherche d'Artificial Analysis montrent clairement que des fabricants tels qu'Anthropic et Google ont successivement développé de nouveaux modèles avec des performances proches de GPT-4, OpenAI o1 et d'autres modèles.

De plus, alors que Scaling Law atteint son plafond et que les principaux dirigeants partent les uns après les autres, les dividendes qu'OpenAI a gagnés en s'appuyant sur un modèle de base unique dans le passé s'estompent à un rythme accéléré.

Dans une industrie où tout est calculé à chaque instant, même le modèle o3 lancé aujourd'hui aura du mal à créer à nouveau une fenêtre de 2 ans.

Surtout lorsque de nouveaux modèles tels que Grok-3 et Claude prennent de l'ampleur, il ne reste peut-être plus beaucoup de temps pour OpenAI.

Réveillez-vous, le meilleur fabricant d'IA cette année est toujours OpenAI, mais l'année prochaine, il pourrait y avoir d'innombrables réponses en raison des différentes orientations de l'IA.

Heureusement, en tant qu’utilisateurs, nous serons les plus grands gagnants de ce changement.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo