OpenAI a soudainement publié la chaîne de réflexion o3-mini ! Le premier show a été remis en question Par rapport à DeepSeek R1 en mesure réelle, l’écart est trop évident.

7 février 2025 Hibou Gourou

Remercions encore DeepSeek.

Tôt ce matin, OpenAI a annoncé la sortie de la chaîne de réflexion du dernier modèle de la série o3-mini.

En termes simples, les utilisateurs peuvent désormais voir le processus de « réflexion » de o3-mini et o3-mini(high) et mieux comprendre comment le modèle raisonne et parvient à des conclusions.

Noam Brown, chercheur à OpenAI, a publié sur la plateforme X :

"Avant la sortie de o1-Preview, nous vous présentons Voir la chaîne de pensées (CoT) fonctionner en temps réel est souvent leur moment de « aha », leur faisant comprendre que cela va être quelque chose de grand.

Bien qu’il ne s’agisse pas de chaînes de pensée originales, elles sont très proches. Je suis tellement excitée que nous puissions partager cette expérience avec le monde ! "

Il a ensuite précisé :

"o3-mini est le premier grand modèle de langage capable de répondre de manière cohérente et précise aux problèmes de tic-tac-toe. Bien que la chaîne de réflexion résumée semble un peu déroutante, vous pouvez voir sur le côté droit que le modèle a finalement réussi à trouver la bonne réponse."

image

C’est public, mais pas complètement public.

Selon le média étranger TechCrunch, OpenAI ne divulguera toujours pas entièrement les étapes complètes de raisonnement de o3-mini, mais il a déclaré qu'il avait « trouvé un point d'équilibre » et que o3-mini pouvait désormais « penser librement » et ensuite compiler un résumé de raisonnement plus détaillé.

Avant cela, pour des raisons de concurrence, OpenAI ne divulguait pas entièrement les étapes d'inférence de o3-mini et de ses prédécesseurs (o1 et o1-mini), fournissant uniquement des résumés d'inférence aux utilisateurs, et même ces résumés étaient parfois inexacts.

De plus, afin d'améliorer la clarté et la sécurité, OpenAI introduit également une étape de post-traitement supplémentaire. Le modèle examinera d'abord la « chaîne de réflexion » pour éliminer les contenus potentiellement dangereux et simplifier modérément les concepts complexes.

Le rapport cite un porte-parole d'OpenAI expliquant : « Cette étape de post-traitement prend également en charge les utilisateurs non anglophones pour garantir qu'ils peuvent visualiser la « chaîne de pensées » dans leur langue maternelle, rendant l'expérience plus conviviale et compréhensible.

En fait, la transparence du raisonnement devient un argument concurrentiel important dans le domaine de l’IA. Permettre à l’IA d’afficher des étapes de raisonnement complètes peut non seulement améliorer la confiance des utilisateurs, mais également faciliter la recherche et l’amélioration de l’IA.

Cependant, la chaîne de réflexion publique peut être exploitée par des concurrents, par exemple en extrayant la logique de raisonnement du modèle grâce à la technologie de distillation. Lors de l'événement AMA (Ask Me Anything) sur Reddit la semaine dernière, Kevin Weil, directeur des produits d'OpenAI, a déclaré :

"Nous travaillons à montrer plus de processus de raisonnement qu'actuellement – [ce changement] arrive bientôt. La question de savoir s'il faut montrer la "chaîne de pensée" complète est encore indécise en raison de problèmes de concurrence. Mais nous savons également que les utilisateurs (en particulier les utilisateurs expérimentés) souhaitent voir plus de détails, nous trouverons donc le bon équilibre. "

En revanche, la chaîne de réflexion de DeekSeek R1 est inconditionnellement ouverte et transparente, et son processus de réflexion approfondi a gagné les éloges de nombreux internautes. L'ajustement « forcé » d'OpenAI cette fois est évidemment une réponse à la pression de DeepSeek et d'autres sociétés d'IA.

X Netizen @thegenioo a immédiatement testé cette mise à jour de la chaîne de réflexion. Il a déclaré : « La nouvelle version fournit non seulement une interface utilisateur plus fluide, mais rend également le processus de réflexion du modèle plus transparent.

Ce qui suit est une comparaison de DeepSeek R1 et OpenAI o3-mini(high) réfléchissant au même problème.

"Combien y a-t-il de e dans deepseeeeek"

Recherche profonde R1

image

OpenAI o3-mini (haut)

"Supposons qu'il y ait un étang contenant une quantité infinie d'eau. Il y a deux bouilloires vides d'une capacité respective de 5 litres et 6 litres. Le problème est de savoir comment obtenir 3 litres d'eau de l'étang en utilisant uniquement ces deux bouilloires."

▲DeepSeek R1

OpenAI o3-mini (haut)

« Un homme a acheté un poulet pour 8 yuans et l'a vendu pour 9 yuans. Puis il a pensé que ce n'était pas une bonne affaire, alors il l'a racheté pour 10 yuans et l'a vendu à une autre personne pour 11 yuans. Demandez-lui combien il a gagné ?

▲DeepSeek R1

▲OpenAI o3-mini (haut)

Après avoir lu les cas ci-dessus, nous constaterons que les deux modèles ont des « styles de pensée » complètement différents.

DeepSeek R1 ressemble plus à un étudiant en arts libéraux. Son processus de raisonnement est étape par étape et sa réflexion est approfondie et délicate. L'avantage est que les résultats sont plus fiables et qu'il y a moins d'écarts logiques. Le o3-mini(high) ressemble plus à un étudiant en sciences. Le processus de raisonnement est concis et clair, et va directement au cœur du problème.

Cette différence se reflète également dans la vitesse de réponse. DeepSeek R1 a un temps de réflexion relativement long, tandis que o3-mini (haut) est plus rapide.

En ce qui concerne les réponses, les réponses de DeepSeek R1 sont souvent plus complètes et détaillées. Par exemple, la première question du test comprendra également des annotations réfléchies. En revanche, o3-mini(high) semble « professionnel ».

Comme mentionné au début, ce qu'o3-mini a publié cette fois n'était pas la version complète de la chaîne de réflexion, donc après son ouverture au public, cela a également suscité beaucoup de doutes.

Face à la controverse, le PDG d'OpenAI, Sam Altman, a également rapidement expliqué sur la plateforme X : "Nous essayons d'organiser la chaîne de réflexion originale pour la rendre plus lisible, et de la traduire si nécessaire, mais essayons de conserver son style original."

Cependant, comme l'a souligné un internaute : sans DeepSeek, serions-nous encore en mesure de voir ne serait-ce qu'une « version castrée » de la chaîne de pensée d'o3-mini ? J'ai bien peur que la réponse soit évidente.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo