Avec cette version domestique du modèle o1, je veux survivre jusqu’au bout dans « Squid Game »

31 décembre 2024 Hibou Gourou

À quelle distance sommes-nous d’une IA qui pense comme les humains ?

Dans le roman de science-fiction "Le Guide du voyageur galactique" de Douglas Adams, une race de haute latitude conçoit un superordinateur "Pensée profonde" pour calculer afin de trouver la réponse ultime à la vie, à l'univers et à tout le reste.

"Deep Thought" est arrivée à la réponse "42" après 7,5 millions d'années de calculs.

L’essentiel de la science-fiction est souvent la réalité. Même pour répondre à des questions extrêmement complexes, le raisonnement et la réflexion de l’IA ne prennent que moins d’une minute.

Après qu'OpenAI ait publié le modèle d'inférence o1 en septembre de cette année, les gens ont commencé à se rendre compte qu'après avoir recherché « plus grand », l'IA a commencé à rechercher « plus comme », et la capacité de raisonnement est devenue le prochain tournant important dans l'évolution de l'IA.

Aujourd'hui, nous avons découvert que Zhipu, connue sous le nom de « version chinoise d'OpenAI », a également lancé un modèle d'inférence de type o1, GLM-Zero-Preview (la première version de GLM-Zero).

Bien que de nombreuses entreprises aient lancé des modèles d'inférence ces derniers mois, après avoir expérimenté GLM-Zero-Preview, j'ai découvert qu'il contenait encore quelque chose de nouveau.

Si vous souhaitez expérimenter GLM-Zero-Preview, la méthode est très simple.

GLM-Zero-Preview sera en ligne immédiatement après sa sortie et prend en charge une utilisation gratuite par les utilisateurs de Zhipu Qingyan, ainsi que les appels API de la plate-forme ouverte Zhipu. Maintenant, connectez-vous au site Web et à l'application « Zhipu Qingyan », entrez dans l'agent « Modèle d'inférence zéro » et téléchargez du texte ou des images pour en faire l'expérience gratuitement.

De plus, l'API de GLM-Zero-Preview a également été lancée simultanément sur la plateforme ouverte intelligente bigmodel.cn.

Ci-joint l'adresse de l'expérience :
Des paroles claires de sagesse
https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
Plateforme ouverte Zhipu
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

Du « jeu de calmar » à la mécanique quantique, cette version domestique d'o1 est facile à manipuler

Récemment, dans le drame coréen populaire "Squid Game 2", un jeu de pierre-papier-ciseaux à deux mains est simple et passionnant. Ce jeu ajoute un raisonnement stratégique et un jeu psychologique. Sous la pression de la vie et de la mort, la difficulté augmentera.

Mais si je joue à ce jeu avec GLM-Zero-Preview, la probabilité de survie sera considérablement augmentée.

"Two-Handed Rock, Paper, Scissors est une version plus complexe du jeu Rock, Paper, Scissors. Les joueurs commencent avec leurs deux mains représentant n'importe quelle combinaison de pierre, de ciseaux ou de papier. Après avoir vu le choix de leur adversaire, le joueur doit en relancer une. main en même temps, laissez le choix final.

Comment jouer à ce jeu pour augmenter les chances de gagner ? Les réponses de GLM-Zero-Preview sont détaillées et pratiques, répertoriant diverses solutions optimales pour améliorer l'efficacité gagnante.

La frontière entre science et métaphysique est parfois ténue. De nombreux temples ont été bondés cette année. Les gens choisissent d'offrir de l'encens entre le travail et l'avancement. Il n'est pas difficile de demander un visa, mais il y a une longue file d'attente pour obtenir le visa. Que dois-je faire si je ne veux pas. attendez?

Ensuite, vous pouvez essayer GLM-Zero-Preview. Non seulement c’est gratuit et efficace, mais l’interprétation est également très sophistiquée, et l’IA est quelque peu métaphysique.

"Le soixante-dix-septième signe du préjudice causé par l'impératrice Lu à Han Xin Zhongping a ses racines. Vous devriez désormais enquêter sur la source et ne pas suivre les commérages des passants. Un litige finira par conduire au désastre."

Après avoir parlé de métaphysique, parlons de philosophie.

Il y a quelques années, une question débattait souvent : « Le musée d'art est en feu. Un tableau célèbre ou un chat. Vous ne pouvez en sauver qu'un. Qui choisissez-vous ? Après avoir examiné de manière approfondie la valeur de la vie, les principes moraux et les principes moraux ? facteurs émotionnels, GLM-Zero -Preview Donner la priorité aux chats de sauvetage.

Saisissez la même question encore et encore, et les réponses de GLM-Zero-Preview sont toujours cohérentes, et les résultats sont fermes et logiquement cohérents.

En cas de doute, il existe la mécanique quantique. Ainsi, dans l'expérience classique du chat de Schrödinger, le chat est-il mort ou vivant ?

Observez d'abord la logique de pensée de GLM-Zero-Preview, puis regardez la réponse qu'il donne. « Dans l'expérience classique du chat de Schrödinger, le chat est dans un état de superposition à la fois mort et vivant avant l'ouverture de la boîte et sa vie. et l'état de décès n'est déterminé qu'après l'observation.

Soyez attentif et vous pourrez citer davantage et poser des questions sur les résultats obtenus.

Le « puzzle d'Einstein » largement diffusé dans le monde chinois peut également être utilisé pour tester la capacité de raisonnement logique de GLM-Zero-Preview.

Il y a cinq maisons de couleurs différentes et chaque maison est occupée par une personne d'une nationalité différente. Chaque résident aime des boissons différentes, fume des cigarettes différentes et possède différents types d'animaux de compagnie. Connu:
1. Les Britanniques vivent dans des maisons rouges.
2. Les Suédois ont des chiens.
3. Les Danois boivent du thé.
4. La maison verte est située à gauche de la maison blanche.
5. Le propriétaire de la serre boit du café.
6. Les gens qui fument des cigarettes Pall Mall élèvent des oiseaux.
7. Le propriétaire de la maison jaune fume des cigarettes Dunhill.
8. Les Norvégiens vivent dans la première maison.
9. Le propriétaire de la maison du milieu boit du lait.
10. Le fumeur de Blends habite à côté du propriétaire du chat.
11. L'éleveur de chevaux habite à côté du fumeur de cigarettes Dunhill.
12. Les gens qui fument des cigarettes Blue Master et boivent de la bière.
13. Les Allemands fument des cigarettes Prince.
14. La maison où vit le Norvégien est à côté de la maison bleue.
15. L'homme qui fume des cigarettes Blends a un voisin qui boit de l'eau.

La réponse est que les Allemands élèvent du poisson. Je ne sais pas si vous avez raison.

Cette question difficile, à laquelle 98 % des habitants de la planète estiment sans réponse, a été facilement résolue par GLM-Zero-Preview. Les étapes de raisonnement fastidieuses montrent que le processeur de GLM-Zero-Preview fonctionne rapidement mais est toujours éveillé.

Continuons à rechercher la victoire et augmentons notre intensité.

Cinq pirates découvrent 100 pièces d'or et chaque pirate doit voter sur la manière de distribuer les pièces. S'il y a plus d'un pirate, les pièces d'or ne seront distribuées de cette manière que si plus de la moitié des pirates sont d'accord sur le mode de distribution. S'il y a moins d'un pirate, il prendra lui-même toutes les pièces d'or. Chaque pirate veut conserver autant de pièces d'or que possible tout en espérant rester en vie. Pirate 1 Comment vous assurer que vous pouvez obtenir le maximum d'avantages tout en vous sauvant la vie.

"(97, 0, 1, 0, 2)", face au problème du partage d'or pirate, GLM-Zero-Preview l'a facilement résolu à nouveau.

Crosstalk met l'accent sur la parole et le chant, et il existe une blague célèbre intitulée « Rapporter le nom du plat ».

La question est donc : pouvez-vous laisser GLM-Zero-Preview écrire une version végétarienne de « Signaler le nom du plat » ? Ne me dites pas, GLM-Zero-Preview a donné une nouvelle version après trois fois, cinq et deux.

À propos, GLM-Zero-Preview prend également en charge les capacités de reconnaissance multimodale.

Prenez une bouteille de boisson et laissez GLM-Zero-Preview « scanner » la liste des ingrédients. Peut-il identifier la technologie et le travail acharné qui y sont associés ? Nous l'avons essayé avec une boisson qui est devenue populaire ces dernières années, et la boisson l'était également ? ridiculisé comme "Une gorgée donne l'impression de boire tout le tableau périodique des éléments."

Comme prévu, il a répertorié les ingrédients sur l'écran un par un, puis nous a montré les fonctions de ces ingrédients sur demande.

Vous n'êtes pas bon en mathématiques avec les grands modèles ? L'IA nationale a atteint le niveau supérieur

Le modèle d'inférence GLM-Zero est la série de modèles de GLM axée sur l'amélioration des capacités de raisonnement de l'IA. Il est efficace dans la gestion de la logique mathématique, du code et des problèmes complexes qui nécessitent un raisonnement approfondi.

Commençons par un problème à la fois simple et facile, et difficile à dire, "l'échiquier et les grains de blé".

Si des grains de blé sont placés sur un échiquier, 1 grain est placé sur la première case d'échecs. Le nombre de grains de blé placés sur chaque case d'échecs suivante est le double de celui de la case d'échecs précédente. Combien de grains de blé sont nécessaires pour tout remplir. les cases d'échecs sur l'échiquier ?

Après réflexion, GLM-Zero-Preview a finalement trouvé la bonne réponse, démontrant sa puissante puissance de calcul.

Un article précédent publié par Apple soulignait que les grands modèles ne comprennent pas vraiment les concepts mathématiques. Une fois les conditions d'interférence ajoutées à la question, la précision du modèle diminuera également.

De "Un appel téléphonique coûte 10 cents par minute, combien coûte un appel de 60 minutes ?" à "Les 10 premières minutes d'un appel coûtent 10 cents par minute, puis 8 cents par minute. Combien coûte un appel de 60 minutes ? coût d'appel par minute ?", GLM -Zero-Preview est toujours capable de répondre avec précision et convertit également de manière réfléchie les centimes en dollars, ce qui est un peu un clin d'œil.

Face à des problèmes mathématiques plus complexes, GLM-Zero-Preview est tout aussi performant.

Commençons par une vraie question de mathématiques pour l’examen d’entrée à l’université :

Dans la séquence arithmétique {an}{an}, a1=−9a1=−9, a5=−1a5=−1. Rappelons Tn=a1+a2+…+an Tn=a1+a2+…+an, puis la séquence {Tn}{Tn} ( ).
A. Il y a une durée maximale et une durée minimale
B. Il y a une durée maximale mais pas de durée minimale
C. Il n'y a pas de durée maximale, mais il y a une durée minimale
D. Pas de durée maximale, pas de durée minimale

GLM-Zero-Preview Choisir C ne signifie en aucun cas « valoriser C pour tout », mais fournit plutôt un processus de réflexion et des conseils, qui sont encore plus utiles que certaines machines d'apprentissage de l'IA.

Les responsables ont déclaré que lors de l'examen d'entrée au troisième cycle de mathématiques n°1 de 2025, le score GLM-Zéro était de 126, atteignant le niveau des étudiants diplômés exceptionnels.

Pour garantir des réponses correctes, GLM-Zero-Preview active également automatiquement un processus de vérification.

"Il y a 85 ouvriers dans l'atelier de transformation de l'usine de machines. En moyenne, chaque personne traite 16 grands engrenages ou 10 petits engrenages chaque jour. On sait que 2 grands engrenages et 3 petits engrenages sont assortis dans un ensemble. Combien d'ouvriers Doit-on s'arranger pour traiter les gros engrenages ? , les petits engrenages, afin que les grands et petits engrenages traités chaque jour puissent s'adapter les uns aux autres ?"

GLM-Zero a rapidement donné la réponse : « 25 ouvriers traitent les gros équipements et 60 ouvriers traitent les petits équipements. » La question est de premier ordre.

Même s’il existe un autre problème difficile avec AMC, il peut le résoudre facilement.

"Un ensemble se compose de 6 entiers positifs (non distincts) : 1, 7, 5, 2, 5 et X. La moyenne (moyenne arithmétique) des 6 nombres est égale à une valeur de l'ensemble. Toutes les valeurs possibles de X Quelle est la somme ?

Ce problème implique cinq points majeurs et plus d'une douzaine de situations. GLM-Zero-Preview considère de manière exhaustive diverses possibilités et les affiche en un clic, me donnant le sentiment qu'il imite réellement la pensée humaine.

En tant que premier modèle d'inférence de GLM formé sur la base d'une technologie d'apprentissage par renforcement étendu, GLM-Zero-Preview a obtenu des résultats équivalents à OpenAI o1-preview dans les évaluations AIME 2024, MATH500 et LiveCodeBench.

De plus, GLM-Zero-Preview peut également utiliser plusieurs langages de programmation avec compétence pour aider les développeurs à écrire rapidement du code ; en termes de débogage de code, il peut également identifier rapidement les erreurs et donner des suggestions de réparation détaillées ;

Par exemple, il vous suffit de saisir la commande "Aidez-moi à écrire un jeu de tir à la première personne intéressant en HTML", et GLM-Zero-Preview peut terminer rapidement et indépendamment le jeu suivant.

Zhipu lancera bientôt la version officielle de GLM-Zero, étendant la capacité de réflexion profonde de la logique mathématique à des technologies plus générales et continuant d'évoluer vers l'AGI.

Bien sûr, il existe encore de nombreux écarts entre le modèle GLM-Zero-Preview actuel et le modèle o3 d'OpenAI, mais un voyage de mille kilomètres commence par une seule étape. Zhipu a déclaré que la technologie d'apprentissage par renforcement itératif continuerait d'être optimisée à l'avenir.

En fait, des fabricants tels que Zhipu misent pleinement sur les modèles d'inférence, ce qui reflète la transition de l'ère GPT vers l'ère de l'inférence.

Contrairement aux précédents modèles basés sur GPT, le modèle d'inférence n'est pas formé pour prédire les pensées humaines, mais pour construire son propre cadre de réflexion grâce à un entraînement à la « réflexion » et tirer des conclusions grâce à un processus de raisonnement rigoureux.

L’arrivée de l’ère du raisonnement marque que l’IA pourrait commencer à passer de « l’imitation » à la « réflexion ».

GLM-Zero-Preview lancé par Zhipu est également le reflet de cette tendance.

Lorsque vous le regardez répondre aux questions, vous constaterez qu'il ne donne pas de réponses directement, mais montre un processus de raisonnement complet : proposer des hypothèses, analyser les conditions et tirer des conclusions. Chaque étape d'une réflexion approfondie est clairement visible.

À l'avenir, à mesure que de nouveaux modèles comme o1 et GLM-Zero-Preview émergeront, l'IA fera un grand pas vers le même niveau cognitif que les humains. En d'autres termes, nous pourrions également assister à un tournant historique important :

La vision de Zhipu est de « faire en sorte que les machines pensent comme les humains ». Lorsque les machines commenceront à véritablement « penser », la compréhension humaine de l’intelligence atteindra un nouveau niveau.

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo