Les performances dépassent celles du GPT-4 Turbo ! « SenseTime RiRixin » a été considérablement amélioré et un supermarché modèle national à grande échelle a ouvert ses portes

26 avril 2024 Hibou Gourou

Quelques années avant que la vague des grands modèles ne déferle, il y a eu une vague d’entrepreneuriat en IA. Parmi elles, SenseTime Technology, Megvii Technology, Yuncong Technology et Yitu Technology sont des représentants de cette période. Ces quatre sociétés sont également connues sous le nom de « Quatre petits dragons de l'IA chinoise ».

Dans cette nouvelle vague déclenchée par OpenAI, SenseTime, l'un des Quatre Petits Dragons, reste toujours sur le devant de la scène. En avril de l'année dernière, SenseTime a lancé la série « Ririxin·Large Model ». Elle a été l'une des premières entreprises en Chine à lancer un grand modèle de langage basé sur des centaines de milliards de paramètres.

C'est nouveau chaque jour, et c'est nouveau chaque jour.

Tang, le fondateur de la dynastie Shang, a gravé la devise d'auto-réprimande ci-dessus sur la baignoire. Tout comme la profondeur des changements dans le domaine de l'AIGC aujourd'hui, le rythme de mise à jour des grands modèles de Shang Tang peut également être décrit comme « nouveau chaque jour ». "

Il y a deux mois, SenseTime a lancé le système grand modèle « Ririxin SenseNova 4.0 », et a même lancé la première API Assistants au monde prenant en charge différents appels d'outils modaux avant OpenAI.

Et cet après-midi, SenseTime, qui est « Rixin », a continué à lancer une série de modèles et d'applications d'IA génératives basés sur « Rixin ». Permettez-moi d'abord de souligner les points forts :

Ririxin 5.0 : atteint ou dépasse GPT-4 Turbo dans les évaluations objectives courantes
Modèle final 1,8 B : meilleures performances à la même échelle, leader à toutes les échelles
Machine tout-en-un d'application au niveau de l'entreprise : impliquant la finance, la médecine, les affaires gouvernementales, le codage et d'autres domaines
Plateforme de génération vidéo Wensheng qui n'a pas encore été lancée

Punch GPT-4 Turbo, coup de pied DALL·E 3

À l'ère de l'IA 2.0, l'IA générative est considérée comme une technologie importante qui favorise l'avancement de la productivité. Si elle parvient à réaliser des percées dans les capacités à trois niveaux de connaissance, de raisonnement et d'exécution, elle fera véritablement un bond en avant. développement futur de la productivité de l’ensemble de la société.

Le mois dernier, le PDG de SenseTime, Xu Li, a présenté le point de vue ci-dessus lors de la GDC 2024. Lors de la conférence de presse d'aujourd'hui, il a une fois de plus souligné que SenseTime continuerait d'explorer l'architecture à trois niveaux KRE pour les capacités des grands modèles sous la direction de la loi. d'échelle (connaissance-raisonnement-exécution), repoussant constamment les limites des capacités des grands modèles.

Alors, quels sont les points forts de la mise à jour du nouveau RiRixin SenseNova 5.0 (ci-après dénommé RiRixin 5.0) ?

Adopter l’architecture du MoE
Basé sur la formation de jetons de 10 To, une grande quantité de données synthétiques
La fenêtre de contexte d'inférence prend en charge 200 Ko
Analyse comparative complète des connaissances, du raisonnement, des mathématiques et du code avec GPT-4 Turbo

Ririxin 5.0 Cette mise à jour se concentre principalement sur l'amélioration des capacités de connaissances, de mathématiques, de raisonnement et de codage, et est entièrement alignée sur GPT-4 Turbo.

Dans les évaluations objectives grand public, RiRiXin 5.0 a atteint ou dépassé la version GPT-4 Turbo publiée par OpenAI lors de la conférence des développeurs l'année dernière, et a également presque complètement écrasé le Llama 3-70B récemment publié.

Tout en paroles et sans pratique, lors de la conférence de presse, SenseTime a également pleinement démontré les capacités réelles de Ririxin 5.0 en matière de langage, de raisonnement mathématique et d'autres aspects.

Saisissez également une question à développement pour l'examen d'entrée à l'université 2022 et comparez-la avec GPT-4 Turbo (uniquement la version de novembre de l'année dernière, la même ci-dessous). On peut voir que les résultats générés par Ririxin 5.0 sont exempts des contraintes des modèles). et les routines, et avoir plus de monde. De bon goût, à première vue, c'est un article qui peut entrer dans le cœur du professeur de notation de l'examen d'entrée à l'université.

Face à la torture des problèmes mathématiques, GPT-4 Turbo a commencé à se sentir un peu dépassé. Non seulement le processus de calcul était compliqué, mais les résultats finaux étaient également erronés. Cependant, les réponses obtenues par RiRixin 5.0 étaient très logiques et tout à fait correctes.

La différenciation industrielle est un facteur clé pour permettre aux grands modèles de se démarquer de la concurrence.

Ririxin 5.0, qui vise des scénarios d'application localisés, est meilleur que GPT-4 Turbo pour comprendre la culture et le contexte uniques du chinois. Comme GPT-4 Turbo n'est pas familier avec le contexte chinois, il est naturellement incapable de saisir avec précision les règles du jeu local de « Eagle Catching Chicken ».

Les capacités multimodales sont généralement considérées par l’industrie comme un moyen clé pour atteindre l’AGI.

À en juger par les résultats des tests de référence, RiRixin 5.0 peut également rivaliser férocement avec GPT-4V, et les deux ont des victoires et des défaites. Dans la démonstration du cas réel, l'effet de générer un vieil éléphant en quelques secondes pris en charge par RiRiXin 5.0 est plus naturel. Cependant, lorsque le même problème est présenté à un ami, il peut même y avoir une erreur à trois pattes.

Sur la base de l'image de portrait générée par la même invite, la texture de la peau générée par Miahua de SenseTime est naturelle, sans polissage ni filtre excessifs de la peau, et complète avec succès l'indicateur « beau ». Étant donné que la base de données internationale de portraits asiatiques utilisée pour former les modèles d’IA est relativement limitée, de tels résultats de comparaison sont relativement normaux.

Combinée à des capacités multimodales et d’analyse de données, l’IA peut réaliser des tâches plus complexes et avancées.

RiRiXin 5.0 peut « casser » la description sommaire de longues images. Il peut identifier les informations spécifiques des taxis Didi. Il peut également calculer les calories du petit-déjeuner unique en Chine. Le même problème est posé à GPT-4 Turbo. .Discréditer.

On dit toujours que l’IA va remodeler le flux de travail. Cette fois, SenseTime a également démontré les capacités du raton laveur de bureau à cet égard.

Saisissez le record de participation de trois ans du pilote de F1 Zhou Guanyu dans le système et laissez le tigre vous indiquer un histogramme du nombre de courses auxquelles il a participé. Cette tâche semble simple, mais en fait elle implique également des problèmes d'identification complexes.

Dans les compétitions internationales, Zhou Guanyu utilise son nom anglais pour concourir. Les grands modèles traditionnels fonctionnent souvent mal lorsqu'ils traitent des tâches de reconnaissance qui impliquent des orthographes anglaises non conventionnelles ou des personnes spécifiques. Bien que le raton laveur de bureau mis à niveau dans Ririxin 5.0 ait connu quelques rebondissements, il a finalement été dessiné avec succès.

Grand modèle bout à côte, seulement rapide et jamais cassé

Dans le monde des arts martiaux, « le seul art martial au monde qui ne peut être brisé est le jeûne » souligne l'importance de la vitesse dans le combat réel, et dans les batailles à grande échelle, ce principe s'applique également.

Avec le développement rapide de la technologie des grands modèles, les besoins de différents scénarios d'application émergent de plus en plus. Les terminaux tels que les smartphones, les ordinateurs et les lunettes VR ont mis en avant des exigences plus élevées en matière de fréquence d'utilisation, de vitesse de performance, de sécurité et de stabilité des grands modèles. .

SenseTime, devenu plus pragmatique, a également officiellement lancé le modèle final de la version SenseChat-Lite à l'échelle 1,8B lors de cette conférence.

Dans le test de référence, ce modèle final a largement surpassé les grands modèles de même ampleur que le MiniCPM-2B et le Phi-2, et a même dépassé certains grands modèles 7B et 13B. Selon les mots de Xu Li, il s'agit de la meilleure performance du modèle. même échelle. Excellent, leader à tous les niveaux.

La recherche montre que la vitesse de lecture la plus rapide de l'œil humain est d'environ 20 mots/seconde, et que le modèle côté appareil SenseTime équipé de 1,8B peut atteindre une vitesse de 18,3 mots/seconde sur un téléphone mobile de milieu de gamme, tandis que le mobile phare Le téléphone peut prendre en charge jusqu'à 78,3 mots/seconde, devenant ainsi la vitesse d'inférence la plus rapide du secteur.

SenseTime a également lancé une solution de collaboration appareil-cloud qui peut exploiter les avantages respectifs de l'appareil et du cloud grâce à une collaboration de jugement intelligente. Lorsqu'une recherche sur Internet ou le traitement de scénarios complexes est requis, il est transféré vers le cloud pour traitement. le traitement côté appareil représente plus de 80 %, réduisant ainsi considérablement le coût d'inférence.

En quelques secondes de conversation avec « Consultation », qu'il s'agisse de générer un rapport de demande de congé en quelques secondes ou de résumer un document de plusieurs milliers de mots, nous pouvons répondre rapidement.

Le modèle de diffusion côté appareil peut également atteindre la vitesse d'inférence la plus rapide du secteur. Sur une plate-forme grand public, la technologie d'expansion d'image LDM-AI côté appareil a une vitesse d'inférence inférieure à 1,5 seconde, soit 10 fois plus rapide que celle de. applications cloud concurrentes. Il prend en charge la sortie de 12 millions de pixels et plus. Les images haute définition prennent en charge les fonctions d'édition d'image telles que l'agrandissement proportionnel de l'image, l'agrandissement gratuit de l'image et l'agrandissement de l'image par rotation rapidement sur le terminal.

Au cours de la démonstration sur place, le personnel a pu s'agrandir au fur et à mesure du tournage, démontrant pleinement la capacité du grand modèle bout à côté à « aller vite mais ne jamais casser ».

De plus, selon Xu Li, ce modèle de bout en bout à grande échelle convient principalement à six domaines principaux : le dialogue quotidien, les questions et réponses de bon sens, la génération de rédaction, la gestion d'albums photo, la génération d'images et l'expansion d'images. Il prend également en charge le multi. -adaptation de l'appareil, lui permettant d'être appliqué de manière flexible dans une variété de scénarios et d'appareils différents.

En réponse à la demande croissante d'applications d'IA à la pointe de secteurs clés tels que la finance, le codage, les soins médicaux et les affaires gouvernementales, SenseTime a également officiellement lancé une machine d'application tout-en-un au niveau de l'entreprise qui est rentable, prêt à l'emploi, sécurisé pour les données et produit à l'échelle nationale, couvrant les finances, la médecine, les affaires gouvernementales, le codage et quatre autres secteurs majeurs.

Prenons l'exemple de la plateforme gouvernementale intelligente de consultation et de questions-réponses. Elle peut non seulement comprendre les questions soulevées par les utilisateurs, mais également fournir des sources de référence pour les réponses, améliorant considérablement le niveau de renseignement des services gouvernementaux.

Xu Li a souligné que le langage naturel ne peut toujours pas remplacer les langages de programmation. Les « programmeurs IA » actuels ne peuvent pas réaliser de manière indépendante des projets de code complexes au niveau industriel, et Copilot est une forme plus appropriée.

Par conséquent, SenseTime a également publié aujourd'hui une version allégée de la machine tout-en-un modèle à grande échelle Little Raccoon Code, qui peut prendre en charge une équipe R&D de 100 personnes sur une seule machine. Prend en charge les données qui ne quittent pas le domaine, la sécurité est garantie et le déploiement gratuit peut être utilisé immédiatement. Chaque unité coûte à partir de 350 000 yuans, offrant une option rentable pour les utilisateurs des petites et moyennes entreprises.

Depuis le début de cette année, l'émergence de Sora a permis aux gens de voir le potentiel créatif illimité de la génération de vidéos IA. Xu Li a également apporté « Encore une chose » lors de la session finale : trois vidéos entièrement générées par de grands modèles. La prochaine plate-forme de génération vidéo Wensheng présente également d'excellentes performances en termes de contrôle des personnages, de contrôle des actions et de contrôle des scènes.

La mise en œuvre d'applications d'IA nécessite un supermarché grand modèle plug-and-play

Un an après la sortie de GPT-4, les grands modèles continuent de constamment améliorer leurs paramètres pour actualiser les classements. Mais ce qui préoccupe vraiment tous les acteurs du secteur cette année, c'est la manière d'intégrer de grands modèles via des agents dans les flux de travail d'innombrables entreprises et particuliers.

Le GPT Store d'OpenAI n'est pas devenu le GPT Store de l'industrie de l'IA comme espéré, mais de nombreux besoins et problèmes subsistent. L’absence d’un pont fluide entre les puissantes capacités des grands modèles et leur mise en œuvre dans différents scénarios industriels représente également une énorme opportunité.

La plateforme ouverte RiRixin de SenseTime est en fait un supermarché de grande taille. Grâce aux capacités du modèle multimodal, l'efficacité des appels d'API est améliorée et le seuil permettant aux entreprises et aux développeurs d'appeler et de personnaliser diverses fonctions d'IA est abaissé.

Par rapport aux paramètres d'échelle du modèle, SenseTime se concentre davantage sur l'application des capacités du modèle. Des grands modèles industriels de SenseTime pour la finance, les soins médicaux, les affaires gouvernementales et le codage, au modèle côté client avec la vitesse d'inférence la plus rapide du secteur, en passant par les applications natives d'IA telles que Discuss, Ruying, Dayi et Little Raccoon Family. , il est possible de voir que SenseTime Tang souhaite fournir une boîte à outils d'IA avec des interfaces plus riches capables d'effectuer des tâches complexes dans différents secteurs.

Le « Rapport sur le marché des plates-formes de développement d'IA en Chine 2023 » publié par Frost & Sullivan, un organisme de recherche bien connu, a souligné que les grands appareils SenseCore sont devenus le principal fournisseur d'infrastructure de cloud computing pour les plates-formes de développement d'IA en Chine. Dans les cinq éléments d'évaluation de la compatibilité de l'infrastructure matérielle, de la coopération de la chaîne industrielle, du module d'optimisation de la formation des modèles, des capacités techniques d'annotation intelligente et du niveau technique du modèle de pré-formation, SenseTime a reçu les scores les plus élevés.

Nous avons rendu compte de la version entreprise WPS AI de Kingsoft Office il y a quelque temps, et l'un des grands modèles avec lequel elle coopère est SenseTime. Kingsoft a déclaré que SenseTime est excellent dans l'analyse des données, c'est pourquoi WPS AI l'appelle pour gérer des scénarios qui nécessitent une réflexion scientifique.

APPSO qualifie d'applicationnistes de l'IA des entreprises comme Kingsoft, qui ne produisent pas de grands modèles mais sont déterminées à appliquer de grands modèles. Le rôle joué par SenseTime n'est pas tant un fournisseur de grands modèles, mais plutôt un grand magasin et un supermarché qui aide diverses industries à mettre en œuvre des applications d'IA à grande échelle.

Qu'est-ce qu'un grand magasin ? Elle propose une large gamme de gammes de produits capables de répondre aux besoins personnalisés de différents consommateurs, petits et grands. Plus important encore, l’émergence des grands magasins et des supermarchés a rendu une grande variété de produits plus accessibles au public, permettant ainsi à un plus grand nombre de personnes ordinaires de profiter facilement de produits et d’expériences de haute qualité en provenance du monde entier.

Et c’est la plus grande valeur que l’AIGC émergent nous apportera à l’avenir. En tant que l’une des plus grandes inventions de la société moderne, l’entreprise est censée être à l’origine de la quatrième révolution industrielle, probablement en raison de son impact sur les entreprises. Feu Tang Xiaoou, fondateur de SenseTime, a également déclaré :

Il n'y a pas d'industrie de l'IA, seulement l'industrie de l'IA+. Elle souligne que l'IA doit coopérer avec les industries traditionnelles. Cette relation est une combinaison et une autonomisation, et non une subversion. Sa valeur réside dans l'aide aux industries traditionnelles pour améliorer l'efficacité de la production et libérer la productivité.

Tang Xiaoou a mentionné dans un discours que « le financement des entreprises n'est pas destiné à brûler, mais à faire de grandes choses ». La « grande chose » que SenseTime fera au cours des dix prochaines années sera d'aider des milliers d'industries à mettre en œuvre l'AIGC.

Auteur : Li Chaofan, Mo Chongyu

# Bienvenue pour suivre le compte public officiel WeChat d'Aifaner : Aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.

Ai Faner | Lien original · Voir les commentaires · Sina Weibo