Apple dément les informations selon lesquelles son IA aurait été entraînée sur des vidéos YouTube

18 juillet 2024 Hibou Gourou

Mise à jour : Apple a depuis confirmé à 9to5Mac que le modèle de langage OpenELM formé sur les sous-titres YouTube n'était utilisé pour alimenter aucun de ses programmes d'IA ou d'apprentissage automatique, y compris Apple Intelligence. Apple affirme qu'OpenELM a été créé uniquement à des fins de recherche et ne recevra pas de versions futures. L’histoire originale publiée le 16 juillet 2024 suit ci-dessous :

Apple est le dernier d'une longue lignée de développeurs d'IA générative – une liste presque aussi ancienne que l'industrie – qui ont été surpris en train de supprimer du contenu protégé par le droit d'auteur des médias sociaux afin de former leurs systèmes d'intelligence artificielle .

Selon un nouveau rapport de Proof News, Apple utilise un ensemble de données contenant les sous-titres de 173 536 vidéos YouTube pour entraîner son IA. Cependant, Apple n'est pas le seul à commettre cette infraction, malgré les règles spécifiques de YouTube interdisant l'exploitation de ces données sans autorisation. D'autres poids lourds de l'IA ont également été surpris en train de l'utiliser, notamment Anthropic , Nvidia et Salesforce .

L'ensemble de données, connu sous le nom de sous-titres YouTube, contient les transcriptions vidéo de plus de 48 000 chaînes YouTube, de la Khan Academy, du MIT et de Harvard au Wall Street Journal, NPR et la BBC. Même les transcriptions d'émissions de variétés de fin de soirée comme « The Late Show With Stephen Colbert », « Last Week Tonight with John Oliver » et « Jimmy Kimmel Live » font partie de la base de données de sous-titres YouTube. Des vidéos d’influenceurs YouTube comme Marques Brownlee et MrBeast, ainsi que d’un certain nombre de théoriciens du complot, ont également été supprimées sans autorisation.

L'ensemble de données lui-même, compilé par la startup EleutherAI, ne contient aucun fichier vidéo, bien qu'il comprenne un certain nombre de traductions dans d'autres langues, notamment le japonais, l'allemand et l'arabe. EleutherAI aurait obtenu ses données à partir d'un ensemble de données plus vaste, baptisé Pile, lui-même créé par une organisation à but non lucratif qui a extrait ses données non seulement de YouTube, mais également des archives du Parlement européen et de Wikipédia.

Bloomberg , Anthropic et Databricks ont également formé des modèles sur la Pile, indiquent les publications relatives des entreprises. "La pile comprend un très petit sous-ensemble de sous-titres YouTube", a déclaré Jennifer Martinez, porte-parole d'Anthropic, dans une déclaration à Proof News. « Les conditions de YouTube couvrent l'utilisation directe de sa plateforme, qui est distincte de l'utilisation de l'ensemble de données The Pile. En ce qui concerne les violations potentielles des conditions d'utilisation de YouTube, nous devons vous renvoyer aux auteurs de The Pile.

Mis à part les détails techniques, les startups d'IA s'appuyant sur le contenu de l'Internet ouvert sont un problème depuis que ChatGPT a fait ses débuts. Stability AI et Midjourney font actuellement face à un procès de la part de créateurs de contenu pour des allégations selon lesquelles ils auraient supprimé leurs œuvres protégées par le droit d'auteur sans autorisation. Google lui-même, qui exploite YouTube, a fait l'objet d'un recours collectif en juillet dernier , puis d'un autre en septembre , qui, selon la société, « porterait un coup dur non seulement aux services de Google, mais aussi à l'idée même de l'IA générative ».

Moi : Quelles données ont été utilisées pour entraîner Sora ? Vidéos youtube?
OpenAI CTO : En fait, je n'en suis pas sûr…
(Je vous encourage vraiment à regarder l'interview complète du @WSJ dans laquelle Murati a répondu à beaucoup des plus grandes questions sur Sora. Interview complète, ironiquement, sur YouTube :… pic.twitter.com/51O8Wyt53c
— Joanna Stern (@JoannaStern) 14 mars 2024

De plus, ces mêmes sociétés d’IA ont de sérieuses difficultés à indiquer où elles obtiennent leurs données de formation. Dans une interview accordée en mars 2024 à Joanna Stern du Wall Street Journal, la directrice technique d'OpenAI, Mira Murati, a trébuché à plusieurs reprises lorsqu'on lui a demandé si son entreprise utilisait des vidéos de YouTube, Facebook et d'autres plateformes de médias sociaux pour former ses modèles. "Je ne vais tout simplement pas entrer dans les détails des données utilisées", a déclaré Murati.

Et en juillet dernier, Mustafa Suleyman, PDG de Microsoft AI, a fait valoir qu’un « contrat social » éthéré signifiait que tout ce qui se trouvait sur le Web était un jeu équitable.

"Je pense qu'en ce qui concerne le contenu déjà présent sur le Web ouvert, le contrat social de ce contenu depuis les années 90 est qu'il s'agit d'un usage loyal", a déclaré Suleyman à CNBC . « N’importe qui peut le copier, le recréer, le reproduire. Cela a été un logiciel gratuit, si vous voulez, c'est ce que nous avons compris.