Des usines d’IA plus intelligentes : le nouveau modèle Omniverse fait progresser la conception et la simulation d’usines d’IA

Le modèle, connecté aux solutions Cadence, ETAP, Schneider Electric et Vertiv, permet aux ingénieurs de concevoir, de tester et d'optimiser une nouvelle génération de centres de données spécialisés dans la fabrication intelligente à l'aide de jumeaux numériques.
by Madison Huang

L’IA est désormais généralisée et entraine une demande sans précédent pour des usines d’IA (c’est-à-dire des infrastructures spécialement conçues pour l’entraînement et l’inférence de l’IA) et pour la production de données intelligentes.

Beaucoup de ces usines d’IA fonctionneront à l’échelle du gigawatt, si bien que la construction d’une seule d’entre elles est un exploit extraordinaire d’ingénierie et de logistique qui nécessite des dizaines de milliers de travailleurs (fournisseurs, architectes, entrepreneurs et ingénieurs) pour construire, expédier et assembler près de 5 milliards de composants et plus de 335 000 kilomètres de câbles en fibres optiques.

Pour aider à concevoir et à optimiser ces usines d’IA, NVIDIA a dévoilé aujourd’hui à la GTC le modèle NVIDIA Omniverse pour la conception et l’exploitation des usines d’IA.

Lors de sa présentation à la GTC, le fondateur et PDG de NVIDIA, Jensen Huang, a montré comment l’équipe d’ingénierie en Data Center NVIDIA a développé une application basée sur le modèle Omniverse pour planifier, optimiser et simuler une usine d’IA d’un gigawatt. Grâce à des outils de simulation avancés tels que la plateforme Cadence Reality Digital Twin et ETAP, les équipes d’ingénierie peuvent tester et optimiser la consommation électrique, le refroidissement et la mise en réseau bien avant le début de la construction.

Créer des usines d’IA : une approche axée sur la simulation

Le modèle NVIDIA Omniverse pour la conception et l’exploitation des usines d’IA utilise des bibliothèques OpenUSD qui permettent aux développeurs d’agréger des données 3D provenant de sources variées, comme le bâtiment lui-même, les systèmes de calcul accéléré NVIDIA et les unités d’alimentation ou de refroidissement de fournisseurs tels que Schneider Electric et Vertiv.

En unifiant la conception et la simulation de milliards de composants, ce modèle aide les ingénieurs à relever des défis complexes :

  • Intégration des composants et optimisation de l’espace : unifier la conception et la simulation des SuperPOD NVIDIA DGX, des systèmes GB300 NVL72 et de leurs 5 milliards de composants.
  • Performances et efficacité du système de refroidissement : utiliser la plateforme Cadence Reality Digital Twin, accélérée par les bibliothèques NVIDIA CUDA et Omniverse, pour simuler et évaluer des solutions hybrides de refroidissement à air et liquide développées par Vertiv et Schneider Electric.
  • Distribution et fiabilité de l’alimentation : concevoir des systèmes électriques évolutifs et redondants avec ETAP pour simuler l’efficacité et la fiabilité des blocs d’alimentation.
  • Topologie et logique du réseau : affiner l’infrastructure haut bande passante avec NVIDIA Spectrum-X et la plateforme NVIDIA Air.

Éliminer la compartimentation de l’ingénierie avec Omniverse

L’une des plus grandes difficultés liées à la construction d’usines d’IA réside dans le fait que différentes équipes (alimentation, refroidissement et mise en réseau) travaillent chacun de leur côté, ce qui diminue l’efficacité et augmente les risques de défaillances.

Grâce au modèle, les ingénieurs peuvent désormais :

  • Collaborer en ayant connaissance du contexte : plusieurs disciplines peuvent itérer en parallèle et partager des simulations en direct qui montrent comment les modifications dans un domaine affectent les autres.
  • Optimiser la consommation énergétique : les mises à jour en temps réel de la simulation aident les équipes à trouver le design de charges de travail d’IA le plus efficace.
  • Éliminer les points de défaillance : valider les configurations de redondance avant le déploiement minimise le risque d’interruptions coûteuses.
  • Modéliser des conditions réelles : il est possible de prédire et de tester l’impact de diverses charges de travail d’IA sur le refroidissement, la stabilité de l’alimentation et l’encombrement du réseau.

Le modèle permet une simulation en temps réel interdisciplinaire, de sorte que les équipes d’ingénierie peuvent tester plusieurs configurations pour modéliser le coût de possession et optimiser la consommation énergétique.

Des simulations en temps réel pour accélérer la prise de décision

La démonstration de Jensen Huang nous montrait des ingénieurs qui modifiaient la configuration de l’usine d’IA en temps réel et pouvaient voir instantanément les résultats.

Une légère modification du plan de refroidissement, par exemple, permettait d’améliorer significativement l’efficacité : un détail qui aurait probablement échappé aux responsables sur le papier. En outre, plutôt que de devoir patienter des heures pour obtenir les résultats de la simulation, les équipes pouvaient tester et affiner leur approche en seulement quelques secondes.

Une fois le design optimal établi, Omniverse a simplifié la communication entre les fournisseurs et les équipes en charge de la construction, afin que le résultat final corresponde bien au modèle jusque dans les moindres détails.

Pérenniser les usines d’IA

Les charges de travail d’IA ne sont pas gravées dans la pierre : la prochaine vague d’applications basées sur l’IA va encore augmenter les besoins réseaux, en énergie et en capacité de refroidissement. Le modèle Omniverse pour la conception et l’exploitation d’usines d’IA permet de garantir que celles-ci sont prêtes en proposant :

  • Des simulations basées sur les charges de travail : pour prédire l’impact des changements au niveau des charges de travail d’IA sur la consommation et le refroidissement à l’échelle du Data Center.
  • Des tests de scénarios de défaillance : modéliser des défaillances du réseau électrique, des fuites dans le système de refroidissement et des pics de consommation afin de garantir la résilience du système.
  • Des mises à niveau évolutives : de quoi planifier l’expansion des usines d’IA et estimer les besoins en infrastructure plusieurs années à l’avance.

En outre, les utilisateurs qui travaillent sur des mises à niveau et questions de rétrocompatibilité peuvent facilement tester et simuler les coûts et les temps d’interruption. De quoi garantir une usine d’IA pérenne.

Pour les opérateurs d’une usine d’IA, garder une longueur d’avance n’est pas qu’une question d’efficacité : il s’agit d’empêcher une défaillance de l’infrastructure pouvant couter plusieurs millions de dollars par jour.

Chaque journée de panne d’une usine d’IA de 1 gigawatt peut se chiffrer à plus de 100 millions d’euros. Le modèle permet de résoudre les problèmes d’infrastructure à l’avance et ainsi de minimiser les risques et les délais de déploiement.

Vers l’IA agentique pour l’exploitation des usines d’IA

NVIDIA travaille avec des entreprises comme Vertech et Phaidra pour développer la prochaine évolution du modèle, afin de passer sur les opérations basées sur l’IA.

Vertech travaille avec l’équipe d’ingénierie de Data Center de NVIDIA sur le système de contrôle avancé des usines d’IA de NVIDIA : un système qui combine les données informatiques et opérationnelles afin d’améliorer la résilience et la visibilité sur les opérations.

Phaidra travaille avec NVIDIA à l’intégration dans Omniverse d’agents basés sur l’IA d’apprentissage par renforcement. Ces agents optimisent la stabilité thermique et l’efficacité énergétique via la simulation en temps réel de divers scénarios, en créant des jumeaux numériques qui s’adaptent en permanence aux changements de matériel et de conditions environnementales.

L’explosion des Data Center d’IA

L’IA est en passe de remodeler le paysage des Data Centers à l’échelle internationale. Un billion de dollars devraient être investis dans la mise à niveau de Data Centers pilotés par l’IA. Autrement dit, la technologie de jumeaux numériques n’est plus une option, mais bien une obligation.

Le modèle NVIDIA Omniverse pour le design et l’exploitation des usines d’IA devrait placer NVIDIA et son écosystème de partenaires à la tête de cette transformation et permettre aux opérateurs d’usines d’IA de garder une longueur d’avance sur les charges de travail d’IA en constante évolution, de minimiser les pannes et de maximiser l’efficacité.

Apprenez-en plus sur NVIDIA Omniverse, regardez la présentation lors de la GTC, inscrivez-vous à la session de Cadence lors de la GTC pour découvrir le modèle Omniverse en action, et apprenez-en plus sur les usines d’IA.

Consultez l’avis sur les informations relatives aux produits logiciels.