DeepSeek : tout savoir sur l’IA qui a détrôné ChatGPT

27 janvier 2025 Hibou Gourou

Une startup chinoise vieille d'un an prend d'assaut l'industrie de l'IA après avoir lancé un chatbot qui rivalise avec les performances de ChatGPT tout en utilisant une fraction des dépenses en énergie, en refroidissement et en formation que demandent les systèmes OpenAI, Google et Anthropic. Voici tout ce que vous devez savoir sur les modèles V3 et R1 de Deepseek et pourquoi l'entreprise pourrait fondamentalement bouleverser les ambitions américaines en matière d'IA.

Qu’est-ce que DeepSeek ?

DeepSeek (techniquement, « Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd. ») est une startup chinoise d'IA qui a été fondée à l'origine en tant que laboratoire d'IA pour sa société mère, High-Flyer, en avril 2023. En mai 2023, DeepSeek a été scindée en sa propre société (avec High-Flyer restant en tant qu'investisseur) et a également publié son modèle DeepSeek-V2. La V2 offrait des performances comparables à celles d’autres grandes sociétés chinoises d’IA, telles que ByteDance, Tencent et Baidu, mais à un coût d’exploitation bien inférieur.

La société a ensuite lancé la version V3 en décembre 2024. La V3 est un modèle de 671 milliards de paramètres dont la formation aurait pris moins de 2 mois . De plus, selon une analyse récente de Jeffries, le « coût de la formation de DeepSeek s'élève à seulement 5,6 millions de dollars américains (en supposant un coût de location de 2 dollars par heure). Cela représente moins de 10 % du coût du lama de Meta. Cela ne représente qu'une infime fraction des centaines de millions, voire des milliards de dollars, que des entreprises américaines comme Google, Microsoft, xAI et OpenAI ont dépensées pour former leurs modèles.

Présentation de DeepSeek-V3 !
Le plus grand pas en avant à ce jour :
⚡ 60 jetons/seconde (3x plus rapide que la V2 !)
Capacités améliorées
Compatibilité API intacte
Modèles etamp; papiers
1/n pic.twitter.com/p1dV9gJ2Sd
— DeepSeek (@deepseek_ai) 26 décembre 2024

Les tests de référence placent les performances du V3 à égalité avec celles de GPT-4o et Claude 3.5 Sonnet. Un article d'opinion publié en décembre 2024 dans The Hill a classé le succès de DeepSeek comme le « moment Spoutnik » de l'Amérique.

DeepSeek a publié son modèle R1-Lite-Preview en novembre 2024, affirmant que le nouveau modèle pourrait surpasser la famille de modèles de raisonnement o1 d'OpenAI (et ce, à une fraction du prix). La société estime que le modèle R1 est entre 20 et 50 fois moins coûteux à exécuter, selon la tâche, que le modèle o1 d'OpenAI. DeepSeek a ensuite publié DeepSeek-R1 et DeepSeek-R1-Zero en janvier 2025. Le modèle R1, contrairement à son rival o1, est open source, ce qui signifie que n'importe quel développeur peut l'utiliser.

En tant que tels, les versions V3 et R1 ont explosé en popularité depuis leur sortie, l'assistant AI alimenté par la version V3 de DeepSeek remplaçant ChatGPT en tête des magasins d'applications . Le capital-risqueur Marc Andreesen, dans un article récent sur les réseaux sociaux, a qualifié le chatbot de DeepSeek de « l'une des avancées les plus étonnantes et impressionnantes que j'ai jamais vues » et de « un cadeau profond au monde ».

Que peut faire DeepSeek ?

En tant que grand modèle de langage open source, les chatbots de DeepSeek peuvent faire essentiellement tout ce que ChatGPT, Gemini et Claude peuvent faire. Cela inclut la génération de texte, d’audio, d’image et de vidéo. De plus, la nouvelle famille de modèles multimodaux de DeepSeek, baptisée Janus Pro , surpasserait DALL-E 3 ainsi que PixArt-alpha, Emu3-Gen et Stable Diffusion XL, sur une paire de références de l'industrie. DeepSeek-R1, rivalisant avec o1, est spécialement conçu pour effectuer des tâches de raisonnement complexes, tout en générant des solutions étape par étape aux problèmes et en établissant des « chaînes de pensée logiques », où il explique son processus de raisonnement étape par étape lors de la résolution d'un problème. .

oh mon garçon #deepseek
— Alexios Mantzarlis (@mantzarlis.com) 2025-01-27T16: 50: 40.640Z

Ce que les produits de DeepSeek ne peuvent pas faire, c'est parler de la place Tienanmen. Ou les manifestations du Parapluie Jaune. Ou la ressemblance du président Xi Jinping avec Winnie l'ourson. Fondamentalement, s'il s'agit d'un sujet considéré comme verboten par le Parti communiste chinois, les chatbots de DeepSeek ne l'aborderont pas et ne s'engageront pas de manière significative.

Qui peut utiliser DeepSeek ?

Interdiction temporaire d’inscription à DeepSeek — Andrew Tarantola / DeepSeek / Tendances numériques

En tant que LLM open source, le modèle de DeepSeek peut être utilisé gratuitement par n'importe quel développeur. OpenAI facture 200 $ par mois pour l'abonnement Pro nécessaire pour accéder à o1. Les modèles de DeepSeek sont disponibles sur le Web, via l'API de l'entreprise et via des applications mobiles. Vous devrez créer un compte gratuit sur le site Web DeepSeek pour pouvoir l'utiliser, mais la société a temporairement suspendu les nouvelles inscriptions en réponse à des « attaques malveillantes à grande échelle contre les services de DeepSeek ». Les utilisateurs existants peuvent se connecter et utiliser la plate-forme normalement, mais on ne sait pas encore quand les nouveaux utilisateurs pourront essayer DeepSeek par eux-mêmes.

Pourquoi DeepSeek est-il soudainement si important ?

Depuis la sortie de ChatGPT en novembre 2023, les sociétés américaines d’IA se sont concentrées sur la création de grands modèles de langage plus grands, plus puissants, plus étendus, plus puissants et plus gourmands en ressources. Plutôt que de chercher à construire des LLM plus rentables et plus économes en énergie, des entreprises comme OpenAI, Microsoft, Anthropic et Google ont plutôt jugé bon de simplement forcer brutalement les progrès de la technologie en dépensant simplement des sommes d'argent et des ressources absurdes, dans la tradition américaine. au problème. Rien qu’en 2024, le PDG de xAI, Elon Musk, devait dépenser personnellement plus de 10 milliards de dollars en initiatives d’IA. OpenAI et ses partenaires viennent d'annoncer une initiative Project Stargate de 500 milliards de dollars qui accélérerait considérablement la construction de services publics d'énergie verte et de centres de données d'IA à travers les États-Unis. Google prévoit de donner la priorité au développement de la plate-forme Gemini tout au long de 2025 , selon le PDG Sundar Pichai, et devrait dépenser des milliards cette année pour atteindre cet objectif. Meta a annoncé à la mi-janvier qu'elle consacrerait cette année jusqu'à 65 milliards de dollars au développement de l'IA.

DeepSeek vient de montrer au monde que rien de tout cela n’est réellement nécessaire – que le « boom de l’IA » qui a contribué à stimuler l’économie américaine ces derniers mois et qui a rendu les sociétés de GPU comme Nvidia exponentiellement plus riches qu’elles ne l’étaient en octobre 2023, pourrait être rien de plus qu'une imposture. Cela remet également en question l’avance réelle des États-Unis en matière d’IA, malgré l’interdiction répétée des expéditions de GPU de pointe vers la Chine au cours de l’année écoulée.

"En fin de compte, la surperformance des États-Unis est due à la technologie et à l'avance des entreprises américaines en matière d'IA", a déclaré Keith Lerner, analyste chez Truist, à CNN . "Le déploiement du modèle DeepSeek amène les investisseurs à s'interroger sur l'avance des entreprises américaines, sur le montant des dépenses et sur la question de savoir si ces dépenses entraîneront des bénéfices (ou des dépenses excessives)."

En bref, DeepSeek vient de battre l’industrie américaine de l’IA à son propre jeu, démontrant que le mantra actuel de « croissance à tout prix » n’est plus valable. "DeepSeek n'a clairement pas accès à autant de calculs que les hyperscalers américains et a réussi d'une manière ou d'une autre à développer un modèle qui semble très compétitif", a déclaré Srini Pajjuri, analyste des semi-conducteurs chez Raymond James, à CNBC . Si une startup chinoise peut créer un modèle d'IA qui fonctionne aussi bien que le dernier et le meilleur d'OpenAI, et le faire en moins de deux mois et pour moins de 6 millions de dollars, alors à quoi sert Sam Altman ?

"Le temps nous dira si la menace DeepSeek est réelle – la course est lancée pour savoir quelle technologie fonctionne et comment les grands acteurs occidentaux réagiront et évolueront", a déclaré Michael Block, stratège de marché chez Third Seven Capital, à CNN. « Les marchés étaient devenus trop complaisants au début de l’ère Trump 2.0 et cherchaient peut-être une excuse pour se retirer – et ils en ont trouvé une excellente ici. »