Nvidia vient de publier un LLM open source pour rivaliser avec GPT-4

Jensen, PDG de Nvidia, devant un arrière-plan.
Nvidia

Nvidia, qui fabrique certains des GPU les plus recherchés dans l'industrie de l'IA, a annoncé avoir publié un grand modèle de langage open source dont les performances seraient comparables aux principaux modèles propriétaires d' OpenAI , Anthropic , Meta et Google .

La société a présenté sa nouvelle famille NVLM 1.0 dans un livre blanc récemment publié , et elle est dirigée par le modèle NVLM-D-72B de 72 milliards de paramètres. "Nous présentons NVLM 1.0, une famille de grands modèles de langage multimodaux de classe frontière qui obtiennent des résultats de pointe sur les tâches de langage de vision, rivalisant avec les principaux modèles propriétaires (par exemple, GPT-4o) et les modèles en libre accès, », ont écrit les chercheurs.

La nouvelle famille de modèles serait déjà capable d'une « multimodalité de niveau production », avec des performances exceptionnelles sur une variété de tâches visuelles et linguistiques, en plus de réponses textuelles améliorées par rapport au LLM de base sur lequel est basée la famille NVLM. "Pour y parvenir, nous créons et intégrons un ensemble de données textuelles de haute qualité dans la formation multimodale, ainsi qu'une quantité substantielle de données mathématiques et de raisonnement multimodales, conduisant à des capacités mathématiques et de codage améliorées dans toutes les modalités", ont expliqué les chercheurs.

Le résultat est un LLM qui peut tout aussi facilement expliquer pourquoi un mème est drôle qu'il peut résoudre des équations mathématiques complexes, étape par étape. Nvidia a également réussi à augmenter la précision du modèle en texte uniquement de 4,3 points en moyenne par rapport aux références courantes du secteur, grâce à son style de formation multimodal.

capture d'écran du livre blanc NVLM expliquant le processus permettant d'expliquer pourquoi un mème est drôle
Nvidia

Nvidia semble vouloir sérieusement s'assurer que ce modèle réponde à la nouvelle définition de « open source » de l'Open Source Initiative, non seulement en rendant ses poids d'entraînement disponibles pour examen public, mais en promettant également de publier le code source du modèle dans un avenir proche. Il s'agit d'un écart marqué par rapport aux actions de concurrents comme OpenAI et Google, qui gardent jalousement les détails des poids et du code source de leurs LLM. Ce faisant, Nvidia a positionné la famille NVLM pour ne pas nécessairement concurrencer directement ChatGPT-4o et Gemini 1.5 Pro , mais plutôt servir de base aux développeurs tiers pour créer leurs propres chatbots et applications d'IA.