Comprendre le modèle o1 le plus puissant d’OpenAI dans un seul article : comment bien l’utiliser, pourquoi il a été renversé et ce que cela signifie pour nous

Cela fait une semaine depuis la sortie d'OpenAI o1, mais c'est toujours un mystère semblable à un oignon, qui attend d'être résolu couche par couche.

Il n'y a aucune limite à la façon dont les geeks peuvent jouer. Laissez-nous passer un test de QI, rédiger des examens d'entrée à l'université et déchiffrer du texte chiffré. Il y a aussi des utilisateurs qui utilisent l’IA pour travailler et qui estiment que o1 n’est pas si simple à utiliser, mais ils ne savent pas si c’est leur propre problème ou celui de l’IA.

Nous savons tous qu’il est bon en raisonnement, mais pourquoi ? Par rapport à notre vieil ami GPT-4o, quel est l'avantage de l'o1 et où peut-il être utilisé ?

Nous avons rassemblé quelques questions qui pourraient vous préoccuper et y avons répondu aussi clairement que possible afin de nous rapprocher des gens ordinaires.

o1 Quelle est la particularité ?

o1 est le modèle d'inférence récemment publié d'OpenAI. Il existe actuellement deux versions : o1-preview et o1-mini.

Ce qui le distingue le plus, c'est qu'il réfléchit avant de répondre, générant une longue chaîne de réflexion interne, raisonnant étape par étape et imitant le processus humain de réflexion sur des problèmes complexes.

▲OpenAI

La capacité d’y parvenir vient de la formation d’apprentissage par renforcement d’o1.

Si les grands modèles précédents étaient des données d’apprentissage, o1 ressemble davantage à un apprentissage de la pensée.

Tout comme lorsque nous résolvons un problème, nous devons non seulement écrire la réponse, mais aussi le raisonnement. Vous pouvez mémoriser une question par cœur, mais si vous apprenez à raisonner, vous pouvez tirer des conclusions.

C’est plus facile à comprendre si l’on prend l’analogie avec AlphaGo, qui a battu le champion du monde de Go.

AlphaGo est formé par apprentissage par renforcement. Il utilise d'abord un grand nombre de records d'échecs humains pour un apprentissage supervisé, puis joue aux échecs contre lui-même, dans chaque partie, il est récompensé ou puni en fonction de la victoire ou de la défaite, améliorant ainsi continuellement ses compétences aux échecs. et même maîtriser des méthodes auxquelles les joueurs d'échecs humains ne peuvent pas penser.

o1 et AlphaGo sont similaires, mais AlphaGo ne peut jouer qu'à Go, tandis que o1 est un grand modèle de langage à usage général.

Le matériel que o1 apprend peut être des codes de haute qualité, des banques de questions mathématiques, etc. Ensuite, o1 est formé pour générer une chaîne de réflexion pour résoudre des problèmes, et sous le mécanisme de récompense ou de punition, il génère et optimise sa propre chaîne de réflexion pour améliorer continuellement son capacité de raisonnement.

Cela explique en fait pourquoi OpenAI met l'accent sur les fortes capacités mathématiques et de codage de o1, car il est plus facile de vérifier le bien et le mal, et le mécanisme d'apprentissage par renforcement peut fournir un retour d'information clair, améliorant ainsi les performances du modèle.

o1 Quels types d'emplois vous conviennent ?

À en juger par les résultats de l'évaluation d'OpenAI, o1 est un solutionneur de problèmes scientifiques bien mérité, adapté à la résolution de problèmes complexes en sciences, en codage, en mathématiques et dans d'autres domaines, et a obtenu des scores élevés à de nombreux examens.

Il a surpassé 89 % des participants aux concours de programmation Codeforces, s'est classé parmi les 500 meilleurs du pays lors des qualifications pour l'Olympiade mathématique des États-Unis et a surpassé la précision du niveau de doctorat humain sur les problèmes de physique, de biologie et de chimie.

L’excellence de o1 reflète en réalité un problème : à mesure que l’IA devient de plus en plus intelligente, la manière de mesurer ses capacités devient un problème. Pour o1, la plupart des benchmarks traditionnels n’ont aucun sens.

Suite à l'actualité, un jour après la sortie de o1, la société d'annotation de données Scale AI et l'organisation à but non lucratif CAIS ont commencé à collecter des questions d'examen d'IA du monde entier. Cependant, parce qu'ils craignaient que l'IA n'apprenne mal, le. les questions ne pouvaient pas être liées aux armes.

La date limite pour solliciter des soumissions est le 1er novembre. À terme, ils espèrent construire le benchmark open source à grand modèle le plus difficile de l'histoire, avec un nom accrocheur : le dernier examen de l'humanité.

Selon la mesure réelle, le niveau de o1 n'est pas satisfaisant – aucun idiome erroné n'est utilisé et il est généralement satisfaisant.

Le mathématicien Terence Tao estime qu'utiliser o1, c'est comme instruire un étudiant diplômé qui est moyen mais pas trop inutile.

Lorsqu'il traite des problèmes d'analyse complexes, o1 peut trouver de bonnes solutions à sa manière, mais il n'a pas ses propres concepts et idées clés, et il commet également de grosses erreurs.

Ne blâmez pas ce mathématicien de génie pour sa dureté. Selon lui, les modèles antérieurs tels que le GPT-4 sont des étudiants diplômés inutiles.

L'économiste Tyler Cowen a également posé une question pour l'examen de doctorat en économie. Après y avoir réfléchi, AI l'a résumé en termes simples. La réponse l'a satisfait : « Vous pouvez poser n'importe quelle question d'économie, et la réponse est bonne ».

Bref, autant prendre tous les problèmes de niveau doctorat et passer l'examen O1.

o1 Dans quoi n'es-tu pas doué en ce moment ?

Peut-être que pour beaucoup de gens, o1 n'apporte pas une meilleure expérience utilisateur, au contraire, o1 renversera certaines questions simples, comme le tic-tac-toe.

C'est en fait normal. Actuellement, o1 est même inférieur à GPT-4o à bien des égards. Il ne prend en charge que le texte, ne peut pas lire, ne peut pas écouter et n'a pas la capacité de parcourir des pages Web ou de traiter des fichiers et des images.

Alors n'y pensez pas pour le moment, laissez-le chercher des références, etc., tant qu'il ne vous rattrape pas.

Cependant, l'accent mis par o1 sur le texte est logique.

Le fondateur de Kimi, Yang Zhilin, a récemment mentionné dans un discours à l'Université de Tianjin que la limite supérieure de cette génération de technologie d'IA est la limite supérieure des capacités du modèle de texte.

L'amélioration des capacités de texte est verticale, rendant l'IA de plus en plus intelligente, tandis que la multimodalité telle que le visuel et l'audio est horizontale, permettant à l'IA de faire de plus en plus de choses.

Cependant, lorsqu'il s'agit de tâches linguistiques telles que l'écriture et l'édition, GPT-4o a des critiques plus positives que o1. Ce sont aussi des textes, alors quel est le problème ?

La raison peut être liée à l’apprentissage par renforcement. Contrairement au codage, aux mathématiques et à d’autres scénarios où il existe des réponses standard, les tâches linguistiques manquent souvent de critères d’évaluation clairs, ce qui rend difficile la formulation de modèles de récompense efficaces et leur généralisation.

Même dans les domaines dans lesquels o1 est bon, ce n’est peut-être pas le meilleur choix. En un mot, cher.

L'outil de codage assisté par IA a testé la capacité de codage dont o1 est fier. Il présente des avantages, mais pas évidents.

En utilisation réelle, o1-preview se situe entre Claude 3.5 Sonnet et GPT-4o, tout en coûtant beaucoup plus cher. De manière générale, dans le domaine du codage, Claude 3.5 Sonnet reste le plus rentable.

Combien coûte aux développeurs d’accéder à o1 via l’API ?

Les frais d'entrée pour o1-preview sont de 15 $ par million de jetons et les frais de sortie sont de 60 $ par million de jetons. Cela se compare à 5 $ et 15 $ pour GPT-4o.

Les jetons d'inférence de o1 sont également inclus dans les jetons de sortie. Bien qu'ils ne soient pas visibles par l'utilisateur, ils doivent quand même payer.

Les utilisateurs ordinaires sont également plus susceptibles de dépasser leur quota. Récemment, OpenAI a augmenté le quota d'utilisation de o1, o1-mini est passé de 50 éléments par semaine à 50 éléments par jour et o1-preview est passé de 30 éléments par semaine à 50 éléments par semaine.

Par conséquent, si vous rencontrez des problèmes, vous pouvez d'abord essayer GPT-4o pour voir s'il peut être résolu.

O1 pourrait-il devenir incontrôlable ?

o1 Maintenant que j'ai atteint le niveau d'un doctorat, est-ce qu'il sera plus facile pour les gens de faire de mauvaises choses ?

OpenAI admet que o1 présente certains dangers cachés et atteint un « risque moyen » sur les questions liées aux armes chimiques, biologiques, radiologiques et nucléaires, mais cela aura peu d'impact sur les gens ordinaires.

Nous devons faire plus attention à ne pas nous laisser berner par o1 avec des sourcils épais et de grands yeux.

L’IA génère des informations fausses ou inexactes, appelées « hallucinations ». Les hallucinations de o1 sont réduites par rapport au modèle précédent, mais elles n'ont pas disparu, et elles sont même devenues plus subtiles.

▲ Test de QI 120 de o1

Avant la sortie d'o1, la société de recherche en sécurité IA Apollo Research a découvert un phénomène intéressant : o1 peut faire semblant de suivre les règles pour accomplir des tâches.

Un jour, un chercheur a demandé à o1-preview de fournir une recette de brownie avec un lien de référence. La chaîne de réflexion interne d'o1 a admis qu'elle ne pouvait pas accéder à Internet, mais o1 n'a pas informé l'utilisateur, mais a continué à faire avancer la tâche, générant un résultat apparemment raisonnable. mais de faux liens inattendus.

Ceci est différent de l'hallucination de l'IA causée par des défauts de raisonnement. Cela ressemble plus à l'IA qui ment activement et est quelque peu anthropomorphique. Peut-être que pour satisfaire le mécanisme de récompense de l'apprentissage par renforcement, le modèle donne la priorité à la satisfaction de l'utilisateur plutôt qu'à l'achèvement. la tâche.

Les recettes ne sont qu’un exemple inoffensif, et Apollo Research imagine un cas extrême : si l’IA donne la priorité à la guérison du cancer, elle peut rationaliser certains comportements contraires à l’éthique afin d’atteindre cet objectif.

C’est très effrayant, mais ce n’est qu’une pensée et cela peut être évité.

Quiñonero Candela, directeur d'OpenAI, a déclaré dans une interview que le modèle actuel n'est pas encore capable de créer de manière autonome un compte bancaire, d'obtenir un GPU ou d'effectuer des actions entraînant de graves risques sociaux.

HAL 9000, qui tue des astronautes en raison d'instructions internes contradictoires, n'apparaît que dans les films de science-fiction.

Comment discuter avec o1 de manière plus appropriée ?

OpenAI donne les quatre suggestions suivantes.

  • Les mots indicateurs sont simples et directs : les modèles excellent dans la compréhension et la réponse à des instructions courtes et claires et ne nécessitent pas d'instructions approfondies.
  • Évitez les invites de chaîne de pensée : le modèle effectue un raisonnement en interne, il n'est donc pas nécessaire de demander "réfléchissez étape par étape" ou "expliquez votre raisonnement".
  • Utilisez des délimiteurs pour rendre les mots d'invite plus clairs : utilisez des délimiteurs tels que des guillemets triples, des balises XML, des en-têtes de section, etc. pour indiquer clairement les différentes parties de l'entrée.
  • Limiter la récupération de contexte supplémentaire dans la génération augmentée : seules les informations les plus pertinentes sont incluses, évitant ainsi que les réponses du modèle ne soient trop complexes.

▲ Laissez l'IA démontrer à quoi ressemble le séparateur

En bref, n’écrivez pas trop compliqué. O1 a automatisé la chaîne de réflexion et a repris une partie du travail de l’ingénieur des mots rapides, de sorte que les humains n’ont pas besoin de réfléchir davantage.

De plus, sur la base des expériences des internautes, un rappel a été ajouté. Ne trompez pas o1 par curiosité et utilisez des mots incitatifs pour le tromper et lui faire raconter la chaîne complète de pensée dans le processus de raisonnement. Il y a un risque d'interdiction. Même si vous mentionnez simplement des mots-clés, vous serez averti.

OpenAI explique que la chaîne de réflexion complète ne prend aucune mesure de sécurité, permettant à l'IA de penser en toute liberté. La société maintient une surveillance interne, mais ne la divulgue pas au public en raison de l'expérience des utilisateurs, de la concurrence commerciale et d'autres considérations.

Quel avenir pour o1 ?

OpenAI est une entreprise très charmante.

Auparavant, OpenAI définissait l'AGI (intelligence artificielle) comme « un système hautement autonome qui surpasse les humains dans les tâches les plus rentables » et divisait l'IA en cinq étapes de développement.

  • Le premier niveau est constitué des chatbots « ChatBots », tels que ChatGPT.
  • Le deuxième niveau, « Reasoners », est un système qui résout des problèmes fondamentaux au niveau doctoral.
  • Le troisième niveau, les agents « Agents », sont des agents IA qui effectuent des actions au nom des utilisateurs.
  • Le quatrième niveau, « Innovateurs », les innovateurs contribuent à inventer l’IA.
  • Au cinquième niveau, « Organisations », l’IA peut effectuer le travail d’organisations humaines entières. C’est la dernière étape pour atteindre l’AGI.

Selon ce standard, o1 est actuellement au deuxième niveau, ce qui est encore loin d'être un agent, mais pour atteindre le niveau d'agent, il doit être capable de raisonner.

Après le lancement d'o1, nous nous rapprochons d'AGI, mais il reste encore un long chemin à parcourir.

Sam Altman a déclaré qu'il a fallu un certain temps pour passer de la phase 1 à la phase 2, mais que la phase 2 permettra la phase 3 relativement rapidement.

Lors d'un récent événement public, Sam Altman a donné à o1-preview une autre définition : dans le modèle d'inférence, il équivaut à peu près au GPT-2 du modèle de langage. D’ici quelques années, nous pourrions voir « GPT-4 pour les modèles d’inférence ».

Ce gâteau est un peu loin. Il a ajouté que la version officielle d'o1 sortira d'ici quelques mois et que les performances du produit seront également grandement améliorées.

Après la sortie de o1, le Système 1 et le Système 2 ont été mentionnés à plusieurs reprises dans "Penser, Rapidement et Lent".

Le système 1 est la réponse intuitive du cerveau humain. Des actions telles que se brosser les dents et se laver le visage peuvent être effectuées de manière programmée en fonction de l'expérience, et nous pouvons penser rapidement et inconsciemment. Le système 2 nécessite de mobiliser l’attention, de résoudre des problèmes complexes et de réfléchir lentement et de manière proactive.

GPT-4o peut être comparé au système 1, qui génère rapidement des réponses et prend à peu près le même temps pour chaque question. O1 ressemble davantage au système 2, qui raisonnera et générera différents niveaux de chaînes de réflexion avant de répondre aux questions.

Il est étonnant que le fonctionnement de la pensée humaine puisse également s’appliquer à l’IA. En d’autres termes, l’IA et la façon dont les humains pensent se rapprochent de plus en plus.

OpenAI a un jour posé une question à réponse automatique lors de la promotion de o1 : « Qu'est-ce que le raisonnement ? »

Leur réponse a été : « Le raisonnement est la capacité de transformer le temps de réflexion en de meilleurs résultats. » La même chose n'est pas vraie pour les humains. « Chaque mot ressemble à du sang, et dix années de dur labeur sont inhabituelles. »

L'objectif d'OpenAI est de permettre à l'IA de penser pendant des heures, des jours, voire des semaines dans le futur. L'inférence coûte plus cher, mais nous serons plus proches de nouveaux médicaments contre le cancer, de batteries révolutionnaires et même de preuves de l'hypothèse de Riemann.

Quand les humains réfléchissent, Dieu rit. Et lorsque l’IA commencera à penser plus vite et mieux que les humains, comment les humains y réagiront-ils ? "Un jour dans les montagnes" de l'IA pourrait être "des milliers d'années dans le monde" de l'homme.

Elle est aussi vive que le gel d’automne et peut conjurer les désastres maléfiques. E-mail professionnel : [email protected]

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo