Nvidia aurait été surpris en train de récupérer (encore une fois) les données d’IA de Netflix et YouTube

Jensen, PDG de Nvidia, devant un arrière-plan.
Nvidia

Selon un rapport accablant de 404 Media , étayé par des discussions internes, des e-mails et des documents obtenus par le média Slack, Nvidia s'est servi de « une expérience visuelle humaine valant la valeur des données d'entraînement par jour », Ming-Yu Liu, vice-président de Recherche chez Nvidia et chef de projet Cosmos, admis dans un e-mail de mai.

D'anciens employés anonymes de Nvidia ont déclaré à 404 qu'on leur avait demandé de récupérer le contenu vidéo de Netflix, YouTube et d'autres sources en ligne afin d'obtenir des données de formation à utiliser avec les différents produits d'IA de l'entreprise. Ceux-ci incluent le générateur de monde 3D Omniverse de Nvidia, les systèmes de voiture autonome et « l'humain numérique ».

Lorsque ces employés ont posé des questions sur la légalité du projet, baptisé en interne Cosmos, la direction leur a assuré qu'ils avaient reçu l'autorisation des plus hauts niveaux de l'entreprise pour utiliser ce contenu.

Le projet visait à créer un modèle de base, semblable à Gemini 1.5 , GPT-4 ou Llama 3.1 , « qui encapsule la simulation du transport léger, de la physique et de l'intelligence en un seul endroit pour débloquer diverses applications en aval essentielles à Nvidia ».

Pour ce faire, le projet Cosmos aurait utilisé un téléchargeur de vidéo open source et utilisé l'apprentissage automatique pour IP hop, évitant ainsi les tentatives de YouTube de le bloquer. Selon les e-mails consultés par 404, les chefs de projet ont discuté de l'utilisation de jusqu'à 30 machines virtuelles exécutées sur Amazon Web Services pour télécharger chaque jour 80 ans de vidéos complètes et de clips.

De son côté, Nvidia ne revendique aucun acte répréhensible. "Nous respectons les droits de tous les créateurs de contenu et sommes convaincus que nos modèles et nos efforts de recherche sont pleinement conformes à la lettre et à l'esprit de la loi sur le droit d'auteur", a déclaré un porte-parole de Nvidia à 404 Media par courrier électronique. « La loi sur le droit d'auteur protège des expressions particulières mais pas les faits, les idées, les données ou les informations. Chacun est libre d’apprendre des faits, des idées, des données ou des informations provenant d’une autre source et de les utiliser pour créer ses propres expressions. L’usage équitable protège également la capacité d’utiliser une œuvre dans un but transformateur, comme la formation de modèles.

C’est loin d’être la première fois que Nvidia (sans parler de la grande majorité du reste du domaine de l’IA) adopte une approche « gratter d’abord et peut-être demander pardon plus tard » pour ses efforts de formation en IA. En juillet, Nvidia a été citée dans un autre rapport sur le grattage illégal de vidéos protégées par le droit d'auteur aux côtés d'Anthropic et Salesforce.

Au CES 2024, la société a déclenché une tempête sur Internet avec ses réponses ambiguës sur la façon dont son nouveau moteur d'IA générative pour les jeux a été formé . En réponse, Nvidia a réitéré que ses outils étaient « commercialement sûrs ».