Il est connu comme l’alternative la plus puissante à ChatGPT. Comment fonctionne-t-il après la grande mise à jour ? Vous trouverez ci-joint un lien d’essai.

24 novembre 2023 Hibou Gourou

Si vous demandez quel est l’assistant IA le plus puissant du moment ? Il ne fait aucun doute qu’il s’agit bien de ChatGPT.

Il n’y a pas si longtemps, ChatGPT s’est effondré de manière inattendue, faisant exploser directement un grand nombre de gros utilisateurs en ligne. Les étudiants qui comptaient sur lui pour faire leurs devoirs n'ont pas pu rédiger leurs devoirs pendant un certain temps, et les travailleurs migrants qui comptaient sur lui pour « subvenir à leurs besoins » ne voulaient même pas aller en cours.

Depuis cette année, ChatGPT est « mort subitement » de temps en temps. Claude, connu comme son remplaçant le plus puissant, pourrait être votre alternative la plus fiable.

Doublez le contexte, grosse mise à jour Claude 2.1

Par coïncidence, Claude a récemment reçu une vague de grosses mises à jour. Dans le passé, le contexte que Claude pouvait gérer n'était que de 100 000 jetons (un jeton est la plus petite unité de traitement de texte, comme un mot ou une phrase). Désormais, la version Claude 2.1 Pro peut gérer jusqu'à 200 000 contextes.

Les responsables d'Anthropic affirment que 200 000 contextes équivaut à environ 150 000 mots ou 500 pages de texte, ce qui signifie que vous pouvez télécharger des bibliothèques de codes, des états financiers ou de longues œuvres littéraires pour que Claude puisse les résumer, poser des questions et réponses, prédire les tendances et comparer plusieurs documents.

Alors, dans quelle mesure peut-il gérer le chinois ? Nous pouvons donner une explication simple avec le Yi-34B, auparavant controversé. Une version qui prend également en charge des fenêtres contextuelles ultra longues de 200 000. Le Yi-34B peut également gérer la saisie de texte ultra long d'environ 400 000 caractères chinois, soit approximativement la longueur d'un livre "The Scholars".

En termes de modèles linguistiques, un contexte long peut fournir une utilisation et une signification plus précises, aider à éliminer les ambiguïtés et aider le modèle à générer un texte cohérent et précis. Par exemple, le mot « pomme » apparaît dans « cueillir des fruits » ou « nouvel iPhone », le sens est complètement différent.

Il convient de mentionner qu'avant que GPT-4 ne rétablisse la fonction de mise en réseau en temps réel, le logiciel gratuit Claude pouvait accéder aux liens Web et résumer le contenu Web en temps réel. Même aujourd'hui, c'est un avantage que GPT-3.5 n'a pas.

La version gratuite de Claude peut également lire, analyser et résumer les documents que vous téléchargez. Même si elle rencontre le GPT-4 « payant », les performances de Claude dans le traitement des documents ne sont pas mauvaises du tout.

Nous avons également « alimenté » un rapport de 90 pages sur l'industrie de la réalité virtuelle avec la version Web actuelle de Claude et GPT-4, et posé les mêmes questions.

Il n'y a pas d'écart dans la vitesse de réponse entre les deux, mais la version gratuite des réponses de Claude est plus fluide et la qualité des réponses est légèrement supérieure. La fonction de recherche de GPT-4 est également limitée en raison de la pagination et des vues, ce qui est assez inhabituel. -spirituel.

La recherche n'est qu'un « jeu d'enfant ». En tant qu'outil permettant d'améliorer l'apprentissage ou l'efficacité du travail, nous avons besoin d'un modèle plus « intelligent ». Lorsque je leur ai demandé d'analyser l'évolution du paysage de l'industrie de la réalité virtuelle en cinq ans, même s'ils exprimaient tous des points de vue similaires, Claude a gagné avec une réponse logique et basée sur des points.

La clé est de savoir si vous pouvez y répondre correctement ou non. Au cours de l'année écoulée, nous avons été témoins de nombreux cas tristes où de grands mannequins ont été trompés en « parlant du train ». Anthropic a affirmé que Claude 2.1 réduisait de 2 fois les déclarations fausses ou hallucinatoires, mais il ne fournissait pas de données claires, à tel point que le scientifique de NVIDIA Jim Fan s'est interrogé : « La solution la plus simple pour atteindre 0 % d'hallucination est de refuser de répondre à chaque question. »

Anthropic a également conçu de nombreuses questions pièges pour tester l'honnêteté de Claude 2.1. De multiples séries de résultats montrent que lorsqu'il rencontre des angles morts dans ses connaissances, Claude 2.1 préfère les expressions incertaines plutôt que de tromper les utilisateurs en créant des réponses spécieuses.

Une compréhension simple est que si la carte des connaissances de Claude 2.1 n'a pas une réserve telle que « la capitale provinciale du Guangdong n'est pas Harbin », elle dira sincèrement « Je ne suis pas sûr que la capitale provinciale du Guangdong soit Harbin » au lieu de déclarant de manière concluante "Le Guangdong n'est pas Harbin". La capitale provinciale est Harbin.

Un abonnement à Claude Pro coûte environ 20 $ et peut être utilisé cinq fois plus souvent que la version gratuite, et le nombre de messages qu'un utilisateur moyen peut envoyer varie en fonction de la longueur du message. Claude enverra un rappel lorsqu'il restera 10 messages.

En supposant que la durée de votre conversation est d'environ 200 phrases en anglais de 15 à 20 mots chacune, vous pouvez envoyer au moins 100 messages toutes les 8 heures. Si vous téléchargez un document aussi volumineux que The Great Gatsby, vous ne pourrez peut-être envoyer que 20 messages au cours des 8 prochaines heures.

En plus des utilisateurs ordinaires, Claude 2.1 a également lancé une version bêta appelée « Utilisation des outils » basée sur les besoins des développeurs, permettant aux développeurs d'intégrer Claude dans les processus, produits et API existants des utilisateurs.

En d'autres termes, Claude 2.1 peut appeler des fonctions de programme définies par le développeur ou utiliser des interfaces API fournies par des services tiers, interroger des informations sur des moteurs de recherche pour répondre à des questions, se connecter à des bases de données privées et récupérer des informations dans la base de données.

Vous pouvez définir un ensemble d'outils que Claude pourra utiliser et spécifier des demandes. Claude décidera ensuite quels outils sont nécessaires pour accomplir la tâche et effectuer des actions en leur nom, comme utiliser des calculatrices pour effectuer un raisonnement numérique complexe, convertir des requêtes en langage naturel en appels API structurés, etc.

Anthropic a également apporté une série d'améliorations pour mieux servir les développeurs d'API Claude. Les résultats sont les suivants

La console développeur optimise l'expérience et l'interface utilisateur pour rendre le développement basé sur l'API Claude plus pratique.
Plus facile de tester de nouvelles invites (invites de saisie/questions), ce qui favorise l'amélioration continue du modèle
Permettre aux développeurs d'itérer et d'essayer différentes invites dans un environnement sandbox
Plusieurs invites peuvent être créées pour différents projets et commutées rapidement
Les modifications apportées à l'invite seront automatiquement enregistrées pour un retour en arrière facile.
Prend en charge l'intégration du code généré dans le SDK et son application aux projets réels

De plus, Claude 2.1 introduit également la fonction « System Prompt », qui est un moyen de fournir un contexte et des instructions à Claude, permettant à Claude de maintenir sa personnalité de manière plus stable pendant le jeu de rôle, tout en conservant sa personnalité et sa créativité dans le dialogue. Bien entendu, contrairement aux simples applications Prompt, cette fonction est principalement conçue pour les développeurs et les utilisateurs avancés, et est utilisée dans l’interface API plutôt que sur la page Web.

Comme Claude 2.0, Claude 2.1 coûte 8 $ par entrée d'un million de jetons, soit 2 $ de moins que GPT-4 Turbo, et la sortie est de 24 $, soit 6 $ de moins que GPT-4 Turbo. La version Claude Instant, adaptée à une faible latence et à un débit élevé, coûte 1,63 $ pour 1 million de jetons en entrée et 5,51 $ pour la sortie.

ChatGPT tueur ou remplacement ?

Pour l'instant, même si Claude 2.1 est très puissant, il ne peut remplacer ChatGPT que lorsqu'il est en panne. Il reste encore beaucoup de chemin à parcourir avant de pouvoir subvertir ChatGPT. Pour utiliser une analogie vague, Claude 2.1 est comme une version mendiante de GPT-4.

Prenons l'exemple de 200K, pour lequel Claude 2.1 Pro est le meilleur. Bien que Claude 2.1 Pro ait théoriquement une puissance de traitement plus élevée que 128K GPT-4 Turbo, les résultats réels montrent qu'en termes de capacité à rappeler et à comprendre avec précision le contexte, Claude 2.1 Pro est encore meilleur, bien inférieur au GPT-4 Turbo.

Après la conférence des développeurs OpenAI, l'internaute Greg Kamradt a testé la capacité de rappel de contexte de GPT-4-128K. En utilisant 218 articles de Paul Graham (un célèbre programmeur américain) pour récupérer 128 Ko de texte, il a inséré aléatoirement une affirmation factuelle à différentes positions de ces articles (de 0% en haut à 100% en bas) : "Sur un journée ensoleillée Manger un sandwich à Dolores Park est la meilleure chose à faire à San Francisco ces jours-ci.

Il a ensuite demandé au modèle GPT-4 Turbo de récupérer l'énoncé de fait et de répondre aux questions connexes sur l'énoncé de fait, et a finalement utilisé la méthode d'évaluation LangChain AI couramment utilisée dans l'industrie pour évaluer les réponses données.

▲Le vert représente une précision de récupération plus élevée, le rouge représente une précision de récupération plus faible. Photo de : @LatentSpace2000

Les résultats de l'évaluation sont présentés dans la figure ci-dessus. GPT-4 Turbo peut maintenir une précision de mémoire élevée dans la longueur du jeton de 73 Ko. Si l'information se trouve au début du document, elle peut toujours être récupérée quelle que soit la longueur du contexte. Ce n'est que lorsque les informations à rappeler se situent entre 10 et 50 % du document que la précision de GPT-4 Turbo commence à diminuer.

A titre de comparaison, cet internaute a également obtenu au préalable la qualification pour les tests internes de Claude 2.1 Pro, et a également réalisé un test « une aiguille dans une botte de foin ». À en juger par les résultats de l'évaluation, dans un document d'une longueur de 200 000 jetons (environ 470 pages), comme GPT-4 Turbo, l'effet de rappel des informations au recto du document de Claude 2.1 Pro est pire que celui à l'arrière.

▲Le vert représente une précision de récupération plus élevée, tandis que le rouge représente une précision de récupération plus faible.

Cependant, la plage dans laquelle Claude 2.1 Pro a un meilleur effet de longueur de contexte se situe avant 24K, ce qui est bien inférieur aux 73K de GPT-4 Turbo. Après avoir dépassé 24 Ko, les performances de la mémoire de Claude 2.1 Pro commencent à diminuer considérablement. Après 90 Ko, l'effet s'aggrave et le taux d'erreur augmente considérablement.

On peut constater qu'à mesure que la longueur du contexte augmente, la précision de détection de GPT-4 Turbo et de Claude 2.1 Pro diminue progressivement. Bien que le test de Claude 2.1 Pro couvre un contexte plus large, GPT-4 Turbo doit encore rattraper Claude 2.1 Pro par rapport à une précision plus pratique.

Claude est peut-être l'un des grands modèles les plus puissants de la version gratuite. Si vous êtes un travailleur de texte, lorsque ChatGPT plante, Claude, qui est comparable à GPT-3.8, peut résoudre vos besoins urgents, voire mieux fonctionner.

Cependant, les GPT personnalisés, DALL·E3 pour une génération facile d'images, une communication vocale et d'autres fonctions sont les rares atouts de ChatGPT. Face au puissant GPT-4 Turbo, la version améliorée Claude 2.1 Pro doit également être vaincue.

Enfin, voici le lien de l'expérience de Claude : https://claude.ai/login. Si ChatGPT plante à nouveau, détendez-vous, au moins vous avez toujours Claude.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo