Derrière le GPT-4o mini, plus petit et plus puissant, l’avenir des modèles d’IA n’est plus que plus grand est meilleur
La semaine dernière, OpenAI a pris les devants en lançant un grand mouvement tard dans la nuit. Le lancement du GPT-4o mini a fait un bon spectacle de « vaincre le grand avec le petit », propulsant le GPT-3.5 Turbo à la « retraite », et l'a même dépassé. dans l'arène des grands modèles LMSYS. Passé GPT-4.
Quant au grand modèle Llama 3.1 sorti par Meta cette semaine, si la taille 405B du premier échelon est toujours attendue, alors les versions de taille 8B et 70B qui réalisent des « petites victoires sur les grandes » apportent plus de surprises.
Et ce n’est peut-être pas la fin de la compétition des petits modèles, mais plutôt un nouveau point de départ.
Ce n’est pas que les grands modèles soient inabordables, mais les petits modèles sont plus rentables
Dans le vaste monde des cercles d’IA, les petits modèles ont toujours eu leur propre légende.
À l'extérieur, le blockbuster Mistral 7B de l'année dernière a été salué comme le « meilleur modèle 7B » dès sa sortie. Il a battu le modèle à paramètres 13B Llama 2 dans plusieurs tests d'évaluation et l'a surpassé en raisonnement, en mathématiques et en génération de code. .
Cette année, Microsoft a également open source le grand modèle à petits paramètres le plus puissant phi-3-mini. Bien que le nombre de paramètres ne soit que de 3,8 milliards, les résultats de l'évaluation des performances dépassent de loin le niveau de la même échelle de paramètres et sont comparables à des modèles plus grands tels que. GPT-3.5 et Claude-3 Sonnet.
En regardant à l'intérieur, Wall Intelligence a lancé début février MiniCPM, un modèle de langage côte à côte avec seulement 2B paramètres. Il utilise une taille plus petite pour obtenir des performances plus élevées. Ses performances surpassent le modèle français populaire Mistral-7B, connu sous le nom de ". Petit Acier". pistolet".
Il n'y a pas si longtemps, le MiniCPM-Llama3-V2.5, qui n'a qu'une taille de paramètre de 8B, a surpassé les modèles plus grands tels que le GPT-4V et le Gemini Pro en termes de performances multimodales complètes et de capacités OCR. Il a donc été critiqué par Stanford. Équipe d'IA de l'université.
Jusqu'à la semaine dernière, OpenAI, qui bombardait tard dans la nuit, a lancé ce qu'il a décrit comme "le modèle à petits paramètres le plus puissant et le plus rentable" – GPT-4o mini, ce qui a ramené l'attention de tous sur le petit modèle.
Depuis qu'OpenAI a entraîné le monde dans l'imagination de l'IA générative, des contextes longs aux paramètres changeants, en passant par les agents et maintenant jusqu'aux guerres de prix, le développement au pays et à l'étranger a toujours tourné autour d'une seule logique : rester sur le terrain en s'orientant vers la commercialisation. . Sur la table à cartes.
Par conséquent, dans le domaine de l'opinion publique, ce qui frappe le plus, c'est qu'OpenAI, qui a réduit ses prix, semble entrer dans une guerre des prix.
Beaucoup de gens n’ont peut-être pas une idée claire du prix du GPT-4o mini. GPT-4o mini coûte 15 cents pour 1 million de jetons d'entrée et 60 cents pour 1 million de jetons de sortie, soit plus de 60 % moins cher que GPT-3.5 Turbo.
En d’autres termes, GPT-4o mini génère un livre de 2 500 pages pour seulement 60 centimes.
Le PDG d'OpenAI, Sam Altman, a également déploré sur X que, par rapport au GPT-4o mini, le modèle le plus puissant d'il y a deux ans, il présentait non seulement un énorme écart de performances, mais avait également un coût d'utilisation 100 fois plus élevé qu'aujourd'hui.
Alors que la guerre des prix pour les grands modèles devient de plus en plus féroce, certains petits modèles open source efficaces et économiques sont plus susceptibles d'attirer l'attention du marché. Après tout, ce n'est pas que les grands modèles ne peuvent pas être utilisés, mais que les petits modèles sont plus rentables. .
D'une part, lorsque les GPU dans le monde sont épuisés, voire en rupture de stock, de petits modèles open source avec des coûts de formation et de déploiement moindres suffisent à prendre progressivement le dessus.
Par exemple, MiniCPM lancé par Mianbi Intelligence peut réduire considérablement les coûts d'inférence avec ses paramètres plus petits, et peut même réaliser une inférence CPU. Il ne nécessite qu'une seule machine pour la formation continue des paramètres et une carte graphique pour le réglage fin des paramètres. sont également des améliorations continues des coûts.
Si vous êtes un développeur mature, vous pouvez même former un modèle vertical dans le domaine juridique en créant vous-même un petit modèle, et le coût d'inférence peut n'être qu'un millième de celui d'un réglage fin d'un grand modèle.
La mise en place de certaines applications « petits modèles » côté terminaux a permis à de nombreux constructeurs d'apercevoir l'aube de la rentabilité. Par exemple, Facewall Intelligence a aidé le tribunal populaire intermédiaire de Shenzhen à lancer un système de procès assisté par intelligence artificielle, prouvant ainsi la valeur de la technologie sur le marché.
Bien entendu, il est plus exact de dire que le changement que nous allons commencer à observer n’est pas un passage des grands modèles aux petits modèles, mais un passage d’une seule catégorie de modèles à un portefeuille de modèles, le choix du bon modèle dépendant sur les besoins spécifiques de l'organisation, la complexité des tâches et les ressources disponibles.
Les petits modèles, en revanche, sont plus faciles à déployer et à intégrer dans des appareils mobiles, des systèmes embarqués ou des environnements basse consommation.
L'échelle des paramètres d'un petit modèle est relativement petite par rapport à un grand modèle, sa demande en ressources informatiques (telles que la puissance de calcul de l'IA, la mémoire, etc.) est plus faible et il peut fonctionner plus facilement sur des appareils finaux limités. ressources. De plus, les équipements d'extrémité ont généralement des exigences plus extrêmes en matière de consommation d'énergie, de génération de chaleur et d'autres problèmes. Les petits modèles spécialement conçus peuvent mieux s'adapter aux limites des équipements d'extrémité.
Le PDG d'Honor, Zhao Ming, a déclaré qu'en raison des problèmes de puissance de calcul de l'IA du côté client, les paramètres peuvent être compris entre 1B et 10B. La capacité de cloud computing des grands modèles de réseau peut atteindre 10 à 100 milliards, voire plus. les deux. .
Le téléphone est dans un espace très limité, n'est-ce pas ? Il prend en charge 7 milliards dans une batterie limitée, une dissipation thermique limitée et un environnement de stockage limité. Si vous imaginez qu'il y a autant de contraintes, cela doit être le plus difficile.
Nous avons également révélé les héros en coulisses responsables du fonctionnement des téléphones intelligents d'Apple. Parmi eux, le petit modèle 3B affiné est dédié à des tâches telles que la synthèse et le polissage. Avec la bénédiction d'un adaptateur, ses capacités sont meilleures que. Gemma-7B et convient pour fonctionner sur des terminaux mobiles. Y compris Google prévoit également de mettre à jour la version 2B du petit modèle Gemma-2 adapté aux terminaux de téléphonie mobile dans les prochains mois.
Récemment, l'ancien gourou d'OpenAI, Andrej Karpathy, a également estimé que la concurrence en matière de taille de modèle serait une "involution inverse", qui ne deviendrait pas de plus en plus grande, mais qui serait plus petite et plus flexible.
Pourquoi les petits modèles peuvent-ils vaincre les grands avec les petits ?
La prédiction d’Andrej Karpathy n’est pas sans fondement.
Dans cette ère centrée sur les données, les modèles deviennent rapidement plus grands et plus complexes. La plupart des très grands modèles (tels que GPT-4) formés sur des données massives sont en fait utilisés pour mémoriser un grand nombre de détails non pertinents, c'est-à-dire mémoriser des informations. machinalement.
Cependant, le modèle affiné peut même « gagner le grand avec le petit » sur des tâches spécifiques, et sa convivialité est comparable à celle de nombreux « très grands modèles ».
Le PDG de Hugging Face, Clem Delangue, a également suggéré que jusqu'à 99 % des cas d'utilisation peuvent être résolus en utilisant de petits modèles, et a prédit que 2024 sera l'année des petits modèles de langage.
Avant d’en rechercher les raisons, il faut d’abord vulgariser certaines connaissances scientifiques.
En 2020, OpenAI a proposé une loi célèbre dans un article : la loi de mise à l'échelle, ce qui signifie qu'à mesure que la taille du modèle augmente, ses performances augmenteront également. Avec l’introduction de modèles tels que GPT-4, les avantages de la loi d’échelle sont progressivement apparus.
Les chercheurs et ingénieurs dans le domaine de l'IA croient fermement qu'en augmentant le nombre de paramètres du modèle, la capacité d'apprentissage et la capacité de généralisation du modèle peuvent être encore améliorées. De cette façon, nous avons vu l’échelle du modèle passer de milliards de paramètres à des centaines de milliards, et même grimper vers des modèles comportant des milliards de paramètres.
Dans le monde de l’IA, la taille d’un modèle n’est pas le seul critère pour mesurer son intelligence.
Au contraire, un petit modèle bien conçu, en optimisant l'algorithme, en améliorant la qualité des données et en adoptant une technologie de compression avancée, peut souvent afficher des performances comparables, voire meilleures, à celles d'un grand modèle sur des tâches spécifiques. Cette stratégie consistant à utiliser petit pour obtenir de meilleurs résultats devient une nouvelle tendance dans le domaine de l’IA.
L’amélioration de la qualité des données est l’un des moyens permettant aux petits modèles de conquérir les grands.
Satish Jayanthi, CTO et co-fondateur de Coalesce, a un jour décrit le rôle des données dans les modèles :
Si LLM existait au 17ème siècle, et que nous demandions à ChatGPT si la Terre était ronde ou plate, et qu'il répondait que la Terre était plate, ce serait parce que les données que nous lui avons fournies l'ont convaincu que c'était vrai. Les données que nous fournissons à LLM et la manière dont nous le formons affecteront directement son résultat.
Pour produire des résultats de haute qualité, les grands modèles de langage doivent être formés sur des données ciblées de haute qualité pour des sujets et des domaines spécifiques. Tout comme les étudiants ont besoin de manuels de qualité pour apprendre, les LLM ont également besoin de sources de données de qualité.
Abandonnant l'esthétique violente traditionnelle consistant à travailler dur pour réaliser des miracles, Liu Zhiyuan, professeur agrégé permanent au Département d'informatique de l'Université Tsinghua et scientifique en chef de l'intelligence face aux murs, a récemment proposé la loi face aux murs à l'ère des grands modèles, c’est-à-dire que la densité des connaissances du modèle continue d’augmenter, doublant en moyenne tous les huit mois.
Parmi eux, densité de connaissances = capacité du modèle/paramètres du modèle impliqués dans le calcul.
Liu Zhiyuan a expliqué de manière vivante que si on vous pose 100 questions de test de QI, votre score dépendra non seulement du nombre de questions auxquelles vous répondez correctement, mais également du nombre de neurones que vous utilisez pour répondre à ces questions. Plus vous effectuez de tâches avec moins de neurones, plus votre QI est élevé.
C’est exactement l’idée centrale que véhicule la densité des connaissances :
Il comporte deux éléments. L’un d’eux est la capacité de ce modèle. Le deuxième élément est le nombre de neurones requis pour cette capacité, ou la consommation électrique de calcul correspondante.
Par rapport aux 175 milliards de paramètres GPT-3 publiés par OpenAI en 2020, en 2024, il a publié MiniCPM-2.4B avec les mêmes performances mais seulement 2,4 milliards de paramètres que GPT-3, ce qui a augmenté la densité des connaissances d'environ 86 fois.
Une étude de l'Université de Toronto montre également que toutes les données ne sont pas nécessaires, identifiant des sous-ensembles de haute qualité à partir de grands ensembles de données qui sont plus faciles à traiter et conservent toute l'information et la diversité de l'ensemble de données d'origine.
Même si jusqu'à 95 % des données d'entraînement sont supprimées, les performances prédictives du modèle au sein d'une distribution spécifique peuvent ne pas être affectées de manière significative.
L’exemple le plus récent est le grand modèle Meta Llama 3.1.
Lorsque Meta a formé Llama 3, il a alimenté 15T de données de formation de jetons, mais Thomas Scialom, un chercheur Meta AI responsable du travail post-formation de Llama2 et Llama3, a déclaré : Le texte sur Internet est plein d'informations inutiles, et la formation est basée sur ces informations constituent un gaspillage de ressources informatiques.
"Il n'y a pas de réponses écrites manuellement dans la formation ultérieure de Llama 3… elle utilise simplement des données purement synthétiques de Llama 2."
En outre, la distillation des connaissances est également l'une des méthodes importantes permettant de « conquérir le grand avec le petit ».
La distillation des connaissances fait référence à l'utilisation d'un « modèle d'enseignant » vaste et complexe pour guider la formation d'un « modèle d'étudiant » petit et simple, qui peut transférer les performances puissantes et la capacité de généralisation supérieure du grand modèle à des modèles informatiques plus légers et plus petits qui coûtent cher. moins.
Après la sortie de Llama 3.1, Zuckerberg, PDG de Meta, a écrit un long article « L'IA Open Source est la voie à suivre », dans lequel il a également souligné l'importance d'affiner et de distiller de petits modèles.
Nous devons former, affiner et distiller nos propres modèles. Chaque organisation a des besoins différents qui sont mieux satisfaits en utilisant des modèles formés ou affinés à différentes échelles et avec des données spécifiques.
Les tâches sur l'appareil et les tâches de classification nécessitent de petits modèles, tandis que les tâches plus complexes nécessitent des modèles de grande taille.
Vous pouvez désormais utiliser des modèles Llama de pointe, continuer à les entraîner sur vos propres données, puis les distiller à la taille de modèle qui correspond le mieux à vos besoins – sans que nous ni personne d'autre ne puissions voir vos données.
Il est également généralement admis dans l'industrie que les versions 8B et 70B du Meta Llama 3.1 sont distillées à partir de tasses ultra-larges. Par conséquent, les performances globales ont été considérablement améliorées et l'efficacité du modèle est également plus élevée.
L’optimisation de l’architecture des modèles est également essentielle. Par exemple, l’intention initiale de la conception de MobileNet est de mettre en œuvre des modèles d’apprentissage profond efficaces sur les appareils mobiles.
Il réduit considérablement le nombre de paramètres du modèle grâce à une convolution séparable en profondeur. Par rapport à ResNet, MobileNetV1 réduit le nombre de paramètres d'environ 8 à 9 fois.
MobileNet est plus efficace sur le plan informatique en raison du nombre réduit de paramètres. Ceci est particulièrement important pour les environnements aux ressources limitées, tels que les appareils mobiles, car cela peut réduire considérablement les besoins en calcul et en stockage sans trop sacrifier les performances.
Malgré les progrès réalisés au niveau technique, l'industrie de l'IA elle-même est toujours confrontée au défi des investissements à long terme et des coûts élevés, et le cycle de retour est relativement long.
Selon les statistiques incomplètes du « Daily Economic News », à la fin du mois d'avril de cette année, un total d'environ 305 grands modèles avaient été lancés en Chine, mais au 16 mai, il restait encore environ 165 grands modèles qui n'avaient pas encore été lancés. inscription complétée.
Le fondateur de Baidu, Robin Li, a publiquement critiqué l'existence de nombreux modèles de base actuels comme un gaspillage de ressources et a suggéré que les ressources devraient être davantage utilisées pour explorer la possibilité de combiner des modèles avec des industries et pour développer la prochaine super application potentielle.
C’est également un problème central dans l’industrie actuelle de l’IA, la contradiction disproportionnée entre l’augmentation du nombre de modèles et la mise en œuvre d’applications pratiques.
Face à ce défi, l'industrie s'est progressivement tournée vers l'accélération de l'application de la technologie de l'IA, et les petits modèles avec de faibles coûts de déploiement et une efficacité plus élevée sont devenus un point de rupture plus approprié.
Nous avons donc remarqué que certains petits modèles axés sur des domaines spécifiques commençaient à émerger, comme de grands modèles pour la cuisine et de grands modèles pour le streaming en direct. Même si ces noms peuvent paraître un peu bluffants, ils sont tout à fait sur la bonne voie.
En bref, l’IA du futur ne sera plus une existence unique et immense, mais sera plus diversifiée et personnalisée. L’essor des petits modèles est le reflet de cette tendance. Leur excellente performance dans des tâches spécifiques prouve que « petit mais beau » peut aussi gagner le respect et la reconnaissance.
Encore une chose
Si vous souhaitez exécuter le modèle à l'avance sur votre iPhone, vous pouvez également essayer une application iOS appelée « Hugging Chat » lancée par Hugging Face.
L'application peut être téléchargée à l'aide du compte Magic Hemei District App Store, puis les utilisateurs peuvent accéder et utiliser divers modèles open source, y compris, mais sans s'y limiter, Phi 3,
Mistral, Command R+ et autres modèles.
Rappel chaleureux, pour une meilleure expérience et performances, il est recommandé d'utiliser la version Pro de dernière génération de l'iPhone.
Lien de téléchargement : https://apps.apple.com/us/app/huggingchat/id6476778843
# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo