Des chercheurs viennent de résoudre le plus grand problème de l’IA

L'ampoule Harth Sleep-Shift fonctionnant à côté d'un lit.
Harth / Amazonie

Les grands modèles de langage qui alimentent les chatbots d'aujourd'hui comme ChatGPT, Gemini et Claude sont des systèmes d'IA générative extrêmement puissants et extrêmement gourmands en énergie.

Apparemment, ce n'est pas nécessaire, car des recherches récentes menées à l'Université de Californie à Santa Cruz ont montré que les LLM modernes exécutant des milliards de paramètres peuvent fonctionner avec seulement 13 watts de puissance sans perte de performances. C’est à peu près l’équivalent d’une ampoule de 100 W et une amélioration de 50 fois par rapport aux 700 W consommés par un GPU Nvidia H100 .

"Nous avons obtenu les mêmes performances à un coût bien inférieur – tout ce que nous avions à faire était de changer fondamentalement le fonctionnement des réseaux neuronaux", a déclaré l'auteur principal de l'article, Jason Eshraghian. "Ensuite, nous sommes allés plus loin et avons construit du matériel personnalisé." Pour ce faire, ils ont supprimé la matrice de multiplication du réseau neuronal.

La multiplication matricielle est la pierre angulaire des algorithmes qui alimentent les LLM actuels. Les mots sont représentés sous forme de nombres puis organisés en matrices où ils sont pondérés et multipliés les uns par rapport aux autres pour produire des résultats linguistiques en fonction de l'importance de certains mots et de leur relation avec d'autres mots dans la phrase ou le paragraphe.

Ces matrices sont stockées sur des centaines de GPU physiquement séparés et récupérées à chaque nouvelle requête ou opération. Le processus de navette des données qui doivent être multipliées parmi la multitude de matrices coûte une quantité importante d’énergie électrique, et donc d’argent.

Pour contourner ce problème, l'équipe de l'UC Santa Cruz a forcé les nombres dans les matrices dans un état ternaire : chaque nombre portait une valeur négative un, zéro ou positive un. Cela permet aux processeurs de simplement additionner les nombres au lieu de les multiplier, une modification qui ne fait aucune différence sur l'algorithme mais permet d'économiser énormément de coûts en termes de matériel. Pour maintenir les performances malgré la réduction du nombre d’opérations, l’équipe a introduit le calcul temporel dans le système, créant ainsi une « mémoire » pour le réseau, augmentant ainsi la vitesse à laquelle il peut traiter les opérations diminuées.

"Du point de vue d'un concepteur de circuits, vous n'avez pas besoin des frais généraux de multiplication, qui entraînent des coûts considérables", a déclaré Eshraghian. Et même si l'équipe a mis en œuvre son nouveau réseau sur du matériel FGPA personnalisé, elle reste convaincue que bon nombre des améliorations d'efficacité peuvent être adaptées aux modèles existants à l'aide d'un logiciel open source et de modifications matérielles mineures. Même sur les GPU standards, l'équipe a constaté une réduction de 10 fois de la consommation de mémoire tout en améliorant la vitesse de fonctionnement de 25 %.

Alors que les fabricants de puces comme Nvidia et AMD repoussent continuellement les limites des performances des processeurs GPU, les demandes électriques (et les coûts financiers associés) pour les centres de données hébergeant ces systèmes ont grimpé en flèche ces dernières années. L’augmentation de la puissance de calcul s’accompagne d’une augmentation proportionnelle de la quantité de chaleur perdue produite par les puces – chaleur perdue qui nécessite désormais des systèmes de refroidissement liquide gourmands en ressources pour se dissiper complètement.

Le PDG d'Arm, René Haas, a averti The Register en avril que les centres de données IA pourraient consommer jusqu'à 20 à 25 % de la production électrique totale des États-Unis d'ici la fin de la décennie si des mesures correctives ne sont pas prises, et rapidement.