Sortie de la puce IA « la plus rapide au monde » : Harvard Dropout Undergraduate défie NVIDIA
Lorsqu'on parle de mots-clés tels que l'IA, les grands modèles et la puissance de calcul, si vous souhaitez mentionner des produits matériels, beaucoup de gens diront NVIDIA sans réfléchir.
Un analyste de Wall Street a commenté un jour :
Une guerre est en cours dans le domaine de l’intelligence artificielle, et Nvidia est le seul marchand d’armes.
En effet, à l'ère de l'IA, la position de NVIDIA est unique et difficile à ébranler. Mais aujourd’hui, un homme courageux est prêt à contester officiellement la situation.
En 2022, Gavin Uberti et Chris Zhu fondent Etched.ai. Ils ont reçu 5,36 millions de dollars d'investissement de démarrage depuis le début, y compris l'ancien PDG d'Ebay, Devin Wenig.
Après avoir annoncé un financement de 120 millions de dollars, Etched a lancé la puce d'IA la plus rapide actuellement : Sohu.
Ce Sohu n'est pas ce Sohu, qui prétend être capable de traiter des milliers de mots en millisecondes. Il peut traiter plus de 500 000 jetons par seconde et exécuter le modèle Llama 70B.
Quelle notion ? Cela équivaut à écrire la Bible en deux secondes, ou à écrire 15 000 milliards de jetons en un an.
Selon le site officiel d'Etched, Sohu intègre l'architecture Transformer au niveau matériel et est la première puce dédiée (ASIC) conçue spécifiquement pour le modèle Transformer.
C'est cette spécialisation qui apporte à Sohu une énorme amélioration des performances. Par rapport à NVIDIA H100, la vitesse d'inférence de Sohu est multipliée par 8 à 10.
Un serveur équipé de huit puces Sohu peut remplacer 160 GPU NVIDIA H100.
Pour les scénarios de programmation, Sohu peut répondre à des centaines de résultats en parallèle via la recherche arborescente de Monte Carlo pour donner la meilleure réponse.
Qu'il s'agisse d'un assistant vocal ou d'un service client intelligent, Sohu peut analyser des milliers de mots en quelques millisecondes.
Et Sohu prend également en charge plusieurs décodages spéculatifs, qui peuvent générer de nouveaux contenus en temps réel à des vitesses extrêmement rapides.
En tant que première puce de circuit intégré spécifique à une application (ASIC) Transformer au monde, chaque puce Sohu n'a qu'un seul cœur, utilise le processus de fabrication 4 nm de TSMC et est équipée de 144 Go de mémoire HBM3E à large bande passante.
Comparé au GPU Blackwell (B200) de nouvelle génération de Nvidia, Sohu est un ordre de grandeur plus rapide et moins cher.
En seulement deux ans, Etched est passé de zéro à ce qu'il est aujourd'hui, ce qui est vraiment un « miracle ».
Chris Zhu est un Sino-Américain qui a fondé Etched avec Gavin Uberti, tous deux issus d'un riche parcours.
Gavin Uberti et Chris Zhu ont tous deux fréquenté l'Université Harvard et ont passé une partie de leur vie de premier cycle. Plus tard, pour certaines raisons, ils ont choisi de prendre un an de congé et ont trouvé un stage chez OctoAI.
Le contenu du travail des deux personnes à cette époque était principalement responsable du développement du compilateur open source et du micro-noyau ApacheTVM. Mais pendant le stage, ils ont constaté que certaines conceptions du jeu d'instructions d'Arm étaient très inefficaces, ce qui rendait leur efficacité de travail très médiocre.
Gavin Uberti a déclaré : "Ce problème ne peut pas être résolu. Je dois y faire face à chaque fois que je travaille, ce qui fait que Chris et moi pensons que nous devons faire mieux."
En réfléchissant à la manière de résoudre ce problème, ils ont soudainement découvert qu’ils pouvaient utiliser cette idée pour concevoir une puce d’accélération de l’IA.
Les deux ont donc choisi d'abandonner Harvard et ont fondé une start-up de puces IA axée sur le LLM – Etched.
Selon Gavin Uberti, la conception de la version grand public ne peut pas apporter d'améliorations révolutionnaires des performances, c'est pourquoi ils ont développé une puce d'accélération dédiée sous l'architecture Transformer.
Gavin Uberti a dit un jour :
Nous devons faire de gros efforts sur une architecture unique pour laisser la puce gérer les tâches d'IA. L'objectif est trop grand, et la puce doit être conçue pour des tâches plus spécifiques… Nous pensons que Nvidia finira par y parvenir.
Les produits d'IA grand public actuels tels que ChatGPT, Claude, Gemini et Sora sont tous pilotés par l'architecture Transformer.
En tant que première puce Transformer ASIC au monde, associée à des résultats aussi exceptionnels, Etched a naturellement attiré beaucoup d'attention.
Le 25 juin, Etched a annoncé la finalisation d'un financement de série A de 120 millions de dollars. Le financement a été codirigé par les sociétés de capital-risque new-yorkaises Primary Venture Partners et Positive Sum Ventures.
Sa gamme d'investisseurs providentiels est également très solide, comprenant le capital-risqueur Peter Thiel, le PDG de GitHub Thomas Dohmke, le co-fondateur de la société de conduite autonome Cruise Kyle Vogt et le co-fondateur de Quora Charlie Cheever.
Lors de sa création en 2022, Etched envisageait un avenir où Transformer dominerait. Gavin Uberti a déclaré : « Nous faisons le plus gros pari sur l'intelligence artificielle ».
Si nous réussissons notre pari, Sohu changera le monde. C'est pourquoi nous osons parier.
# Bienvenue pour suivre le compte public officiel WeChat d'aifaner : aifaner (ID WeChat : ifanr). Un contenu plus passionnant vous sera fourni dès que possible.
Ai Faner | Lien original · Voir les commentaires · Sina Weibo