Les nouveaux GPU de Nvidia rencontrent déjà des problèmes
Les derniers GPU Blackwell de Nvidia rencontrent des problèmes dans le centre de données, rapporte The Information . Selon le rapport, les clients de Nvidia s'inquiètent de la capacité des accélérateurs d'IA à tenir le coup, car des problèmes de surchauffe ont entraîné des retards dans le déploiement des racks de serveurs pour la formation à l'IA.
L'architecture Blackwell est au cœur des accélérateurs d'IA de nouvelle génération de Nvidia et de ses prochaines cartes graphiques RTX série 50 . Dans le centre de données, l' architecture avait déjà été retardée en raison de « défauts de conception », repoussant le déploiement des GPU B100 et B200. Et ce malgré de grosses commandes auprès d’acteurs de l’IA comme Meta, Microsoft et Google.
Selon le rapport, le gros problème du centre de données provient du regroupement de 72 accélérateurs d'IA dans un rack de serveur, ce qui a entraîné des problèmes de surchauffe. Reuters rapporte que Nvidia a demandé à ses fournisseurs de repenser « plusieurs fois » les racks de serveurs afin de contourner les problèmes de surchauffe.
Blackwell est une étape importante pour Nvidia. Elle est au cœur de la prochaine génération de GPU, qui pourrait se classer parmi les meilleures cartes graphiques . Blackwell est également un point pour Nvidia pour consolider son avance devant AMD. Team Red a déjà déployé son accélérateur d'IA MI300X dans des centres de données et déploie actuellement son accélérateur MI325X pour préparer les puces d'IA de nouvelle génération.
Nvidia affirme que Blackwell est capable de former de grands modèles de langage à un coût et une consommation d'énergie 25 fois inférieurs à ceux de son architecture Hopper de dernière génération, ou qu'il est capable de former ces modèles jusqu'à 30 fois plus rapidement. Ce type d’accélération a un impact important sur la chaleur, qui constitue déjà un problème auquel les centres de données doivent faire face lorsqu’il s’agit d’accélérateurs d’IA.
Cela pourrait également avoir des implications pour les GPU RTX de la série 50. Bien que nous sachions que des cartes comme la RTX 4090 sont incroyablement efficaces en matière de jeux, le précédent produit phare de Nvidia rencontrait toujours des problèmes de consommation d'énergie élevée et de fonte des connecteurs d'alimentation . Les dernières spéculations indiquent qu'une carte comme la RTX 5090 pourrait pousser encore plus loin les besoins en énergie, jusqu'à 600 watts. Corsair a également confirmé que les cartes graphiques de nouvelle génération de Nvidia resteront avec le connecteur 12V-2×6 qui a été au centre des problèmes de fusion sur le RTX 4090.
Les joueurs n'entasseront pas 72 RTX 5090 dans un PC, mais l'ampleur des problèmes de surchauffe est différente entre un centre de données et un ordinateur de bureau. Si l'architecture Blackwell rencontre ces problèmes dans le centre de données, cela pourrait entraîner des problèmes pour la gamme d'ordinateurs de bureau de Nvidia.
Pour l’instant, tout ce que nous pouvons faire, c’est attendre. Nvidia devrait dévoiler ses GPU RTX série 50 en janvier au CES 2025. Des rapports récents suggèrent que Nvidia met fin à la production de ses cartes RTX série 40, ouvrant très probablement la voie aux options de nouvelle génération.