L’impact du GPT sur les interfaces des produits

18 janvier 2024 Hibou Gourou

1. Informations générales

1.1 Pourquoi les grands modèles sont-ils importants ?

En tant que type de grand modèle de langage (LLM), le modèle GPT (Generative Pre-Trained Transformer) d'OpenAI démontre l'intelligence machine la plus proche des êtres humains aujourd'hui. La caractéristique la plus importante de GPT est qu'il utilise des milliards de paramètres et les données textuelles du L'Internet tout entier permet aux modèles informatiques de produire une émergence intelligente (Emergence). L'émergence en physique fait généralement référence à l'apparition récurrente de certains modèles stables dans des phénomènes chaotiques. L'émergence est la catégorie la plus difficile dans la compréhension des phénomènes naturels complexes. À partir d’une récente interview avec Sam Altman, directeur d’OpenAI, et Ilya, scientifique en chef, nous pouvons comprendre comment apprivoiser le grand modèle de langage qui émerge avec intelligence et comment le faire servir les gens de manière stable et sûre (Alignement, alignement). Méthode de débogage efficace, GPT reste dans une certaine mesure une boîte noire.

Nous devons nous demander pourquoi un modèle de langage va changer le monde. ChatGPT est en effet plus obéissant et parle mieux, mais qu'y a-t-il de si génial dans un outil d'interaction textuelle intelligent ? Il y a deux raisons : 1. L'intelligence artificielle a plusieurs modes (modaux). La recherche entre les différents modes se pénètre et se fait concurrence. Le mode le plus performant sera le premier à définir la trajectoire des futures applications de l'IA. ChatGPT affiche le texte modal. l’intelligence dominera le développement récent de l’IA. 2. Le texte est très important en tant qu’entrée dans la société humaine.

Point 1, la multimodalité. L'intelligence artificielle utilisant les images comme modalité est développée depuis de nombreuses années. La vision par ordinateur, qui a réalisé à plusieurs reprises de grands progrès en matière de reconnaissance d'images et de conduite autonome, est une autre porte d'entrée vers l'intelligence artificielle. Au cours des dix dernières années, on a assisté à une explosion des communications dans les trois conférences CVPR/ICCV/ECCV : même si les importations parallèles sont supprimées, c'est l'exemple même de l'explosion de l'intelligence image. L'émergence d'OpenAI a inversé la place prépondérante de l'intelligence graphique dans les applications d'IA, et même sa trajectoire de développement – lorsque Meta a publié Segment-Anything (un algorithme graphique pour segmenter différents objets en images), le modèle a montré une puissance similaire à celle de GPT dans le texte. Avec des capacités de migration sans coût, certaines personnes se sont également exclamées que le CV traditionnel est mort (une exagération).

L'influence de ChatGPT sur la modalité textuelle ne nécessite aucune élaboration. Elle va au-delà de la simple valeur de recherche scientifique et redéfinit l'intelligence et le potentiel commercial de la modalité textuelle. Le produit DALL·E d'OpenAI fournit également une intelligence d'image en dehors de la modalité texte. L'open source Stable Diffusion et le fermé Midjourney, en tant que seigneurs dans le domaine du graphisme Vincent, ont également contribué à d'innombrables avertissements de « mort » dans l'industrie créative. Dans l’ensemble, l’IA se pénètre dans les deux modalités du texte et de l’image et repousse les limites de l’intelligence dans une compétition mutuelle.

– Modalité texte + image d’OpenAI : ChatGPT + DALL·E

– Interface utilisateur Web à diffusion stable (image modale) : diffusion stable

– Mi-parcours (modal graphique) : Mi-parcours

Point 2 : La modalité textuelle est l’entrée dans la société humaine. Vous pouvez vous référer aux opinions de Yuval Harari (auteur de « A Brief History of Humankind ») dans une interview exclusive avec The Economist : il estime que le langage est le système d'exploitation de la société humaine, et que l'intelligence artificielle a piraté ce système, et L'IA va le changer grâce au langage, le système d'exploitation lui-même, a complètement changé l'histoire de l'humanité. La planification du comportement humain et des réactions sociales par de grands modèles aura un impact énorme en raison de l'intrusion du système linguistique.

Pour plus d'informations, veuillez vous référer à : Yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of-human-civilisation

1.2 Coût du LLM

Combien coûte la formation d’un très grand modèle ?

Tout d'abord, quelles que soient les images et les vidéos, les grands modèles nécessitent au moins les données texte de l'ensemble de l'Internet ; des dizaines de milliers d'A100 sont nécessaires pour démarrer ; la consommation d'énergie de calcul de l'électricité requise deviendra un coût incontournable ; le coût des essais et des erreurs est incontrôlable : il peut être mesuré en plusieurs mois Le temps de formation et le coût de la main-d'œuvre ; la méthode de formation du modèle et de réglage précis est inconnue ou non publique, et le grand modèle est toujours une boîte noire. La somme de ces raisons a conduit au fait qu'il n'y a qu'une poignée d'entreprises sur la planète qui peuvent posséder de grands modèles, car cela nécessite des ressources financières extrêmement solides et une tolérance au risque extrêmement élevée. les grandes entreprises qui n’ont pas l’esprit d’aventure ne sont pas dignes d’en être propriétaires.

Elon Musk a estimé dans une récente interview que la formation d'un modèle de niveau GPT-5 pourrait utiliser 30 000 à 50 000 puces H100, en utilisant la dernière architecture technique, et les meilleurs chercheurs en IA (voir OpenAI, environ 200+ personnes). Enfin, Musk a donné le coût de départ du grand modèle. Comparé à la récente valorisation d'une startup modèle à grande échelle, ce chiffre a une grande valeur de référence : 250 millions de dollars américains.

1.3 Opportunités

Lors de l'assemblée des actionnaires de Tencent en 2023, le PDG de Tencent, Ma Huateng, a répondu aux questions sur ChatGPT et l'IA en déclarant : « Nous pensions au départ que (l'intelligence artificielle) était une opportunité unique pour Internet, mais plus nous y réfléchissions. , plus nous sentions qu'il s'agissait d'une opportunité similaire qui ne se produit qu'une fois par siècle. Des opportunités comme la révolution industrielle qui a inventé l'électricité. " Ma Huateng a déclaré que les sociétés Internet ont accumulé beaucoup de choses dans le domaine de l'IA, et Tencent est également plongé dans la recherche et le développement, mais il n'est pas pressé de le terminer plus tôt et de montrer les produits semi-finis. "Pour la révolution industrielle, retirer les ampoules un mois plus tôt n'est pas si important à long terme. La clé est de faire un travail solide sur les algorithmes sous-jacents, la puissance de calcul et les données, et plus important encore, c'est la mise en œuvre du scénario." , et actuellement (nous) sommes encore en train de réfléchir. J'ai l'impression que de nombreuses entreprises sont trop précipitées maintenant, et j'ai l'impression que c'est pour augmenter le cours des actions, ce qui n'est pas notre style.

En résumé, il n'est pas nécessaire de se précipiter pour augmenter le cours des actions, ni de se précipiter pour innover car le chemin à parcourir est long. Les grands modèles ne sont pas de nouvelles applications, ils sont la révolution elle-même.

J'ai aussi quelques opinions. La différence entre retirer l'ampoule avec un mois de retard et la retirer un mois plus tôt est de savoir si vous finissez par être Edison ou une deuxième personne inconnue qui invente l'ampoule. Cependant, malgré les capacités étonnantes des grands modèles, le défi de la domestication et de l’amélioration reste ardu. Nous traversons une période difficile lorsque nous construisons pour la première fois un avion. Si nous voulons voler en toute sécurité et de manière stable, nous avons encore besoin de nombreuses leçons durement gagnées de nos échecs pour comprendre où se trouve la ligne rouge. OpenAI a lancé le plug-in Plugin, qui est une méthode de produit potentielle. Cependant, les performances commerciales actuelles du plug-in ne sont pas claires. L'App Store qui devrait être déclenché par le plug-in n'est pas non plus clair à tout moment. en un produit ayant une valeur commerciale est encore inconnu. Au fil des années, Goose Factory a été un pionnier en matière d'avantage de second moteur et possède l'atout de la micro-innovation. Il n'est pas nécessairement déraisonnable d'exploiter pleinement ses atouts.

2. GPT entraîne des modifications dans la couche d'interaction homme-machine (HCI/UI)

Interface utilisateur, interface d'interaction utilisateur, appelée UI. Aujourd'hui, tout le monde vit dans l'océan de l'interface utilisateur. De nombreux internautes pensent que l'interface utilisateur est une combinaison de conception Web et d'applications. Cette compréhension limite considérablement la connotation de l'interface utilisateur. Une définition plus professionnelle de l’interface utilisateur devrait être appelée HCI, Human-Computer Interface, interface d’interaction homme-machine. Au cours des près d'un siècle de développement, les gens ont conçu plusieurs générations d'interfaces utilisateur distinctives basées sur la puissance de calcul et le niveau d'intelligence des machines de l'époque. Nous sommes dans la phase de transition de GUI vers NLI.

PCI : Interface de carte perforée, interface interactive de carte perforée
CLI : Interface de ligne de commande, interface interactive en ligne de commande
GUI : Interface utilisateur graphique, interface graphique interactive
NLI : Natural Language Interface, interface interactive en langage naturel
BCI : Brain Computer Interface, interface d’interaction cerveau-ordinateur

2.1 PCI, interface de carte perforée interface de carte perforée

Ci-dessus : Une pile de cartes perforées contenant un programme.
Ci-dessous : des employés américains en 1950 fabriquant des cartes perforées contenant une section des données du recensement américain.

2.2 CLI, interface de ligne de commande

Les langages de programmation sont encore encapsulés et des dispositifs d'affichage apparaissent, et les outils de ligne de commande sont devenus l'interface interactive la plus importante pour les ordinateurs. Le fonctionnement CLI est efficace et puissant.

2.3 GUI, interface utilisateur graphique Interface graphique utilisateur

Le GUI, l'interface utilisateur graphique que Jobs a « volée » à Xerox, a déclenché la révolution des ordinateurs personnels.

Cette couche d'interface a été extrêmement influente et la première application phare au monde est née sur l'interface graphique, le tableur Macintosh VisiCalc, qui était également le prédécesseur d'Excel.

À ce jour, l'interface utilisateur belle et fluide de Mac reste l'une des fonctionnalités du produit les plus attrayantes pour les utilisateurs.

2.4 NLI, interface en langage naturel

1. Texte en texte https://openai.com/chatgpt

2. Texte en image https://openai.com/dall-e-2

3. Texte en vidéo 文生视频
Runway : Faire progresser la créativité grâce à l’intelligence artificielle.

Dites un mot : « Un magnifique rendu de concept de salon. » « Générez un magnifique rendu de concept de salon. »

4. Comportement du texte à l'action

Expert:

L'objectif d'Adept est de créer un assistant intelligent complet grâce à l'automatisation logicielle. Le langage naturel sera le seul contenu interactif que les utilisateurs d’Adept devront utiliser à l’avenir.

2.5 BCI, interface cerveau-ordinateur

De la pensée à l'action, de la pensée humaine au comportement des machines. NeuroLink, qui a été très médiatisé l'année dernière, permet aux singes de jouer au jeu Pong avec leurs pensées, et les gens peuvent également utiliser des interfaces cerveau-ordinateur pour contrôler des jeux simples et des prothèses mécaniques. À ce stade, des produits cerveau-ordinateur plus significatifs aident principalement les personnes handicapées à contrôler leurs prothèses et à retrouver leur capacité à vivre. La technologie cerveau-ordinateur actuelle est encore un peu tôt pour que nous puissions discuter des interfaces révolutionnaires d’interaction homme-machine.

2.6 Résumé

-La connotation de l'interface utilisateur doit être élargie

La communication entre les machines et les humains nécessite une couche de médias interactifs, qui contrôle les limites des entrées et des sorties dans l'interaction homme-machine. Le support interactif filtrera et convertira les entrées humaines, rendant ces entrées humaines étranges sûres et identifiables par la machine ; en même temps, les résultats renvoyés par la machine seront filtrés et convertis par le support interactif, les rendant sûrs, utilisables et précieux. aux humains.

Cette couche de médias interactifs connectant les humains et les machines est la définition de l’interface utilisateur.

Au cours de la révolution Internet des deux dernières décennies, l'interface graphique a standardisé toutes les méthodes de saisie que les gens souhaitent utiliser avec la machine via des formes d'opération limitées telles que les boutons, le glissement, les poulies, le zoom avec les doigts, les opérations multi-doigts, le tremblement, le retournement, le matériel. boutons, etc. Cette entrée standardisée est comprise par la machine et renvoyée sous forme de sortie standardisée. La révolution du PC et de l'Internet mobile a assimilé l'interface utilisateur et l'interface graphique, mais en fait l'interface utilisateur est bien plus riche que les méthodes d'interaction existantes de l'interface graphique.

L'émergence du GPT a directement détruit cet équilibre. L'impact le plus important des machines devenant plus intelligentes sur les produits est que la tolérance aux pannes de l'ordinateur pour le langage naturel a été considérablement améliorée. Il n'a plus besoin d'un filtre qui ne peut recevoir que des informations très limitées pour comprendre les gens. Le langage naturel parlé quotidiennement est même mêlé à toutes sortes de logiques, d’indices, de sarcasmes et d’erreurs. L'amélioration de la tolérance aux pannes de l'IA pour le langage naturel détruira définitivement la couche d'interaction actuelle de l'interface graphique en tant qu'interface utilisateur :

1. Une grande transformation de l'expérience utilisateur (UX). Les utilisateurs sont passés de la principale méthode d'interaction consistant à "cliquer, glisser, glisser" avec les doigts et la souris dans le passé à une interaction utilisant le langage naturel comme interface.

2. L'interface graphique actuelle va-t-elle disparaître ? Non, pour deux raisons. Premièrement, lorsque le modèle n'est pas assez précis ou que la production de l'IA est immature, l'apparence élégante et l'expérience de l'interface graphique sont toujours attrayantes pour les utilisateurs, et le coût de l'interaction avec les doigts et la souris est bien inférieur à celui du langage naturel. Deuxièmement, en ce qui concerne les différentes étapes de développement de l’interface utilisateur, la ligne de commande noire est-elle obsolète ? Non, l'interface graphique ne disparaîtra pas immédiatement. S’il est plus efficace d’utiliser l’interface interactive de l’ère précédente, ce type d’interaction existera toujours même si le seuil d’utilisation est élevé.

3. L'outil de ligne de commande (CLI) reste le moyen le plus efficace d'effectuer des opérations approfondies sur l'ordinateur. Dans un futur intelligent, si vous avez besoin d'exploiter une application en profondeur, quelqu'un pourrait vous dire : ouvrez votre interface graphique, tout comme les programmeurs d'aujourd'hui disent : ouvrez votre terminal.

4. L'interface d'interaction homme-machine évoluera dans le sens d'une réduction de la profondeur des opérations informatiques et d'un abaissement du seuil d'utilisation. Il en va de même pour les changements que les grands modèles sont sur le point de déclencher. Vous pouvez voir cette tendance : ligne de commande CLI – interface graphique GUI – langage naturel NLI – interface cerveau-ordinateur BCI. Cette tendance est de plus en plus faible dans la capacité des ordinateurs à fonctionner en profondeur, et elle abaisse également le seuil pour les utilisateurs. et plus bas.

5. Les meilleurs ingénieurs informaticiens ne peuvent pas être remplacés pour leur compréhension approfondie des machines et leurs capacités opérationnelles approfondies, mais seuls les meilleurs ingénieurs peuvent survivre.

À partir de l'image ci-dessous, nous pouvons voir plus clairement pourquoi GPT entraînera d'énormes changements dans l'interface utilisateur du produit ? Parce que dans le passé, les langages machine étaient très durs et avaient une tolérance aux pannes extrêmement faible. Une seule erreur de ponctuation dans un langage de programmation peut rendre l’ensemble du programme inutilisable. La magie la plus importante apportée par les grands modèles est d'améliorer considérablement la tolérance aux pannes de la machine pour le langage naturel humain (Natural Language, NL). En résumé, la future interface interactive en langage naturel prendra la zone de saisie de texte comme point de départ et visera une interaction multimodale et hautement dynamique.

Seuil d’utilisation : Plus on est proche des humains, plus le seuil d’utilisation est bas. Ligne de commande CLI > Interface graphique GUI > Langage naturel NLI > Interface cerveau-ordinateur BCI

Efficacité de fonctionnement : plus on s'éloigne de la machine, plus l'efficacité du contrôle est faible. Ligne de commande CLI > Interface graphique GUI > Langage naturel NLI > Interface cerveau-ordinateur BCI

-L'évolution du NLI

·Démarrer : zone de saisie de texte
·Développement : zone de saisie multimodale, voix, image, vidéo · Objectif : saisie – texte multimodal, son, image, vidéo => retour – Texte, Voix, Image, Vidéo utile + comportement logiciel utile.

Quels modes Vision pro peut-il fournir : interaction tridimensionnelle, gestes, gravité, rotation, texte vocal, images statiques et vidéo en temps réel.

·Futur : Parler aux humains n'est que le point de départ pour comprendre le monde avec de grands modèles. Utiliser le LLM comme cerveau, les caméras comme yeux et les bras robotiques comme membres est une nouvelle interface permettant à l'IA d'interagir avec le monde physique.

-Timberter – une application de "comptage du bois" basée sur des algorithmes visuels qui existe depuis de nombreuses années . Que se passerait-il si on y ajoutait les capacités de raisonnement d’un grand modèle et un bras robotique capable d’effectuer des manipulations ?

-Un robot contrôlé par la voix ? Interface vocale OpenAI GPT-4 Whisper

3. Écosystème d'IA

3.1 Forbes IA 50

Forbes a sélectionné les 50 entreprises d'IA les plus prometteuses de l'année ces dernières années. Contrairement aux années précédentes, la liste des entreprises d'IA de cette année ne comprend pas seulement l'Amérique du Nord, mais aussi les 50 entreprises les plus prometteuses et les plus appréciées parmi plus de 800 entreprises à travers le monde, des États-Unis, du Canada, d'Israël, du Royaume-Uni et du Japon.

Vous trouverez ci-dessous la liste complète que j'ai compilée, comprenant OpenAI, Jasper, Hugging Face, Adept… toutes les startups d'IA que vous connaissez. Les étudiants intéressés peuvent se rendre sur le site Forbes pour le lire eux-mêmes, et je ne lancerai pas la discussion. Forbe AI 50

3.2 Plus de startups d'IA

Les scénarios d'utilisation sont principalement concentrés côté C : Texte génératif, Audio, Image, Vidéo + Recherche + Copilt Automatisé. Les applications côté B sont principalement basées sur l'intégration et peuvent appartenir à des catégories industrielles spécifiques : droit, médecine et santé, recherche universitaire (biologie, physique, mathématiques) et analyse intelligente. À cela s'ajoute une infrastructure d'IA : base de données vectorielle, modèle d'IA à grand modèle, sécurité de l'IA, développement et exploitation DevOps et Copilt automatisé.

L'image ci-dessous contient une liste d'un plus grand nombre d'entreprises générées par l'IA (mars 2023, du point de vue des sociétés de capital-risque américaines). Les étudiants intéressés peuvent en faire l'expérience par eux-mêmes.

4. Intégration de grands modèles et produits

4.1 Coûts d'intégration

Le coût d'intégration ici ne concerne pas seulement le coût de développement de l'intégration de l'IA dans les produits, mais également le coût de l'apprentissage et le temps nécessaire aux utilisateurs pour effectuer un travail de même qualité que par le passé en utilisant des applications intelligentes d'IA. Les applications d’IA n’auront de valeur que lorsque le coût d’intégration sera nettement inférieur au coût initial (coûts de développement et d’exploitation + coûts d’utilisation).

Coût d'intégration = coût de développement de produits IA + coût utilisateur de l'utilisation d'une application IA pour effectuer un travail de même qualité dans le passé

Donnez deux exemples pour illustrer l’importance des coûts d’intégration.

Recto : AIGC génère des matériaux de remplissage/matériaux pour la conception de jeux.

Il y a un travail à forte intensité de main-d'œuvre dans la conception et le développement du jeu, y compris la préparation des matériaux de remplissage, les dialogues des personnages PNJ, le changement de style, les scènes de bord… Ce type de travail n'a pas d'exigences élevées en matière d'originalité, mais le coût en temps ne peut pas être réduit de manière significative.

Si vous utilisez des outils d'IA pour générer de tels matériaux sans importance et que vous les ajustez finalement par des concepteurs expérimentés, il est tout à fait possible d'obtenir les mêmes résultats de qualité que par le passé.

Coût d'intégration des matériaux non critiques générés par l'IA < < < Coût de préparation des matériaux traditionnels

L'AIGC mérite d'être promu dans le cadre du matériel de jeu.

D'un autre côté : une solution pour générer des publicités avancées à l'aide d'une IA unique.

Bien que les solutions publicitaires basées sur l'IA semblent avoir réduit le coût de génération de texte, d'images et de vidéos dans le passé, une publicité vraiment attrayante et avancée nécessite souvent une quantité extrêmement importante de création personnalisée et de modifications secondaires.

Par conséquent, lorsque les utilisateurs réels (les prestataires de services publicitaires utilisant la création de l'IA ou les demandeurs de publicité souhaitant éliminer les annonceurs) apportent des ajustements secondaires au contenu publicitaire généré par l'IA, il faudra beaucoup d'efforts pour atteindre le même niveau de qualité que la publicité passée. Le coût d’ajustement est bien plus élevé que celui des méthodes traditionnelles et, dans la plupart des cas, il est même impossible d’obtenir la même qualité.

Coût d'intégration de l'IA de la publicité haut de gamme > > > Coût initial de la publicité traditionnelle.

Le service unique d’IA résout la création de publicités personnalisées avancées, ce qui n’est pas réaliste aujourd’hui.

Bien entendu, à mesure que les performances du modèle s’améliorent, même les moyens et les préférences du marché changent (marketing de précision, préférences personnalisées). Le cas négatif actuel deviendra un cas positif, et le cas positif pourra également devenir un cas négatif.

4.2 Méthodes d'intégration

Les grands modèles piloteront deux types de produits. Un tout nouveau produit construit autour des capacités de l’IA peut être appelé AI Naive/AI native. L'autre consiste à ajouter des fonctions d'IA aux logiciels traditionnels et à effectuer une transformation intelligente, qui peut être appelée mise à niveau de l'IA/mise à niveau de l'IA. Ces deux méthodes formeront des interfaces utilisateur de produits différentes.

Les facteurs les plus importants dans l’intégration de produits d’IA :

1. Performances du modèle d'IA
2. Le coût de développement et d'exploitation des produits d'IA + le coût des utilisateurs utilisant des applications d'IA (coûts d'intégration).

5. Informations sur l'outil d'IA

La composition des applications IA : infrastructure Infra + middleware Middleware + application (ces définitions peuvent se chevaucher)

5.1 Application IA | Application

-Moteurs de recherche : Nouveau Bing, Google Bard

-Questions et réponses sur le chat : ChatGPT, Jasper, diverses applications de chat intelligent

– Vincent Pictures : Milieu du voyage, Diffusion stable

– Vidéo Vincent : Piste

-Automatisation : Adepte

…

Plus de références d'outils (nationales) : boîte à outils IA | Collection d'outils IA | Navigation sur le site Web IA

5.2 Intergiciel |

Le grand modèle est un modèle de base, qui possède les connaissances les plus étendues et présente de fortes capacités de généralisation, mais sa précision dans des scénarios précis est insuffisante. C’est également le principal défi dans la manière d’appliquer de grands modèles. L'importance du middleware est d'organiser la connaissance des scénarios professionnels, d'élargir la base de connaissances des modèles, d'améliorer la précision de l'IA et enfin de fournir des interfaces pratiques et utilisables pour connecter les applications de couche supérieure. Le coût des interfaces en langage naturel étant très faible, de nombreux middlewares fournissent directement des interfaces applicatives et une fenêtre de discussion, comme le premier AgentGPT.

-AgentGPT
https://github.com/reworkd/AgentGPT
https://agentgpt.reworkd.ai/

Plus d'outils middleware :
-Langchain : https://github.com/hwchase17/langchain

-AutoGPT : https://github.com/Significant-Gravitas/Auto-GPT

-BabyAGI : https://github.com/yoheinakajima/babyagi

-HuggingGPT : https://github.com/huggingface/transformers

…

Il existe de nombreux middlewares similaires, je ne les énumérerai donc pas tous.

5.3 Infrastructure | Infra

-Modèle

Grands modèles : OpenAI GPT, Google Bard, Anthropic, Wenyan Yixin, Baichuan Intelligence…

Modèle open source :

Lama : https://github.com/facebookresearch/llama

Alpaga : https://github.com/tatsu-lab/stanford_alpaca

Vicogne : https://lmsys.org/blog/2023-03-30-vicuna/

GPT4ALL : https://github.com/nomic-ai/gpt4all

ChatGLM : https://github.com/THUDM/ChatGLM-6B

Baichuan-7B : https://github.com/baichuan-inc/baichuan-7B

…

Diffusion stable (mode image) : https://github.com/AUTOMATIC1111/stable-diffusion-webui

-Base de donnéesBase de données

Référez-vous à la base de données vectorielles recommandée par OpenAI : https://platform.openai.com/docs/guides/embeddings/how-can-i-retrieve-k-nearest-embedding-vectors-quickly

Zilliz a un produit open source Milvus : https://github.com/milvus-io/milvus

-Compiler et exécuter Compilation & DevOps

La manière d’exécuter de grands modèles sur des appareils locaux et bas de gamme est un obstacle à la distribution des capacités d’IA.

MLC-LLM (Machine Learning Compilation-LLM) est un outil de compilation pour ML. Il permet d’exécuter de grands modèles localement. https://mlc.ai/mlc-llm/

L'expérience d'utilisation est la suivante. Installez l'outil mlc-chat-cli-nightly via conda dans l'environnement local, téléchargez le modèle depuis Hugging Face et exécutez le grand modèle sur le Mac local pour les questions et réponses :

Exécutez de grands modèles localement sur des appareils mobiles :

6. Conclusion

Grand modèle : pour les grands modèles fermés tels que GPT, les défis résident dans la scénariisation du modèle, la sécurité des données, la précision, l'efficacité du débogage, l'ingénierie rapide et l'amarrage des interfaces d'ingénierie. Les modèles open source à déploiement automatique ne sont pas strictement des modèles de grande taille. Les défis résident dans la vitesse, les performances et les performances de référence.

Middleware : connecte la couche modèle et la couche application, fournit des plug-ins de connaissances dans des domaines spécifiques ; étend les scénarios d'application et fournit rapidement des interfaces d'application ; réduit les coûts de développement, d'exploitation et de maintenance.

Couche application : tolérance des performances du modèle dans les scénarios d'utilisation, bénéfice = valeur d'utilisation – coût d'intégration ; réponse aux risques : illusion de l'IA, sécurité de l'IA.

L’interface utilisateur est le ciment puissant qui relie les personnes et les ordinateurs. C’est sur cette interface que s’effectue la conception des produits. La révolution provoquée par GPT aura un impact énorme sur l'interface utilisateur des produits. Le contenu de cet article est ma recherche et ma compilation d'informations liées à l'IA au cours des derniers mois. Cette voie évolutive doit prendre en compte le fait que la performance du modèle est imparfaite, partant de l'interaction textuelle, s'étendant vers des multimodalités riches et diverses et utilisant de nouvelles expériences interactives pour répondre à des besoins anciens et nouveaux.

La question centrale de la révolution de l’IA sera toujours : quelle est cette interface ?

Permettez-moi de terminer avec les mots de Lennon : tout ira bien à la fin. Si ce n'est pas bien, ce n'est pas la fin.

# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo