Le nouveau logiciel NVIDIA pour l’infrastructure Blackwell permet d’exploiter les usines d’IA à la vitesse de la lumière

Le logiciel NVIDIA Mission Control, désormais disponible pour les systèmes NVIDIA DGX et prochainement disponible auprès des principaux fournisseurs de systèmes, multiplie par cinq l'utilisation des GPU et améliore l'efficacité de l'entraînement et de l'inférence à n'importe quelle échelle.
by Charlie Boyle

La vapeur est à l’origine de la révolution industrielle. L’ère numérique a été marquée par l’avènement des logiciels. Aujourd’hui, l’ère de l’IA est marquée par le développement de l’IA générative, de l’IA agentique et du raisonnement par l’IA, qui permettent aux modèles de traiter davantage de données pour apprendre et raisonner afin de résoudre des problèmes complexes.

Tout comme les usines industrielles transforment les matières premières en marchandises, les entreprises modernes ont besoin d’usines d’IA pour transformer rapidement les données en informations exploitables, évolutives, précises et fiables.

L’orchestration de cette nouvelle infrastructure est bien plus complexe que la construction d’usines à vapeur. Les modèles de pointe exigent des ressources de l’ordre du supercalcul. Le moindre temps d’arrêt risque de faire dérailler des semaines de progrès et de réduire l’utilisation des GPU.

En vue de permettre aux entreprises et aux développeurs de gérer et d’exploiter les usines d’IA à la vitesse de la lumière, NVIDIA a annoncé aujourd’hui le lancement de NVIDIA Mission Control lors de la NVIDIA GTC, la conférence mondiale sur l’IA. Il s’agit de la seule plateforme logicielle unifiée d’orchestration et d’opérations qui automatise la gestion complexe des Data Centers et des charges de travail d’IA.

NVIDIA Mission Control améliore tous les aspects des opérations des usines d’IA. De la configuration des déploiements à la validation de l’infrastructure en passant par l’exploitation des charges de travail des développeurs, ses capacités permettent aux entreprises de déployer et d’exploiter plus rapidement des modèles de pointe.

Cette suite de logiciels est conçue pour faciliter la transition des systèmes basés sur NVIDIA Blackwell du pré-entraînement au post-entraînement, et désormais à l’échelle des temps de test, avec rapidité et efficacité. Elle permet aux entreprises de passer facilement des charges de travail d’entraînement à celles d’inférence, et inversement, sur leurs systèmes NVIDIA DGX basés sur Blackwell et NVIDIA Grace Blackwell, en réaffectant dynamiquement les ressources des clusters en fonction des priorités changeantes.

En outre, Mission Control intègre la technologie NVIDIA Run:ai pour rationaliser les opérations et l’orchestration des tâches de développement, d’entraînement et d’inférence, de façon à multiplier par jusqu’à cinq l’utilisation de l’infrastructure.

Les capacités de récupération autonome de Mission Control, assistées par des fonctions de point de contrôle rapide et de redémarrage automatisé par niveaux, permettent une récupération des tâches jusqu’à 10 fois plus rapide qu’avec les méthodes conventionnelles reposant sur une intervention manuelle, ce qui améliore l’efficacité de l’entraînement et de l’inférence de l’IA afin de garantir le fonctionnement des applications d’IA.

Fruit de plusieurs décennies d’expertise de NVIDIA en matière de calcul intensif, Mission Control permet aux entreprises d’exécuter simplement des modèles en minimisant le temps passé à gérer l’infrastructure d’IA. L’outil automatise le cycle de vie de l’infrastructure d’usine d’IA pour tous les systèmes NVIDIA DGX basés sur NVIDIA Blackwell et les systèmes NVIDIA Grace Blackwell de Dell Technologies, Hewlett Packard Enterprise (HPE), Lenovo et Supermicro afin de rendre l’infrastructure d’IA avancée plus accessible aux industries du monde entier.

Les entreprises sont en mesure de simplifier et d’accélérer davantage le déploiement des systèmes NVIDIA DGX GB300 et DGX B300 en utilisant Mission Control avec le service NVIDIA Instant AI Factory préconfiguré dans les Data Centers optimisés pour l’IA d’Equinix sur 45 marchés à travers le monde.

Un logiciel avancé permet aux entreprises de surveiller leur infrastructure en continu

Mission Control automatise la gestion de bout en bout de l’infrastructure, y compris l’approvisionnement, la surveillance et le diagnostic des erreurs, afin d’assurer la continuité des opérations. De plus, cet outil surveille en permanence chaque couche de l’application et de la pile d’infrastructure afin de prévoir et d’identifier les sources d’indisponibilité et d’inefficacité, ce qui permet d’économiser du temps, de l’énergie et de l’argent.

Le logiciel NVIDIA Mission Control offre également les avantages suivants :

  • Configuration et provisionnement simplifiés des clusters grâce à de nouvelles interfaces d’automatisation et de programmation d’applications standardisées pour accélérer le déploiement avec une gestion intégrée des inventaires et des visualisations.
  • Orchestration fluide des charges de travail pour des workflows Slurm et Kubernetes simplifiés.
  • Profils d’alimentation optimisés pour équilibrer les besoins énergétiques et ajuster les performances du GPU selon différents types de charges de travail, avec des contrôles sélectionnables par le développeur.
  • Récupération autonome des tâches pour identifier, isoler et résoudre les inefficacités sans intervention manuelle, afin de maximiser la productivité des développeurs et la résilience de l’infrastructure.
  • Tableaux de bord personnalisables pour suivre les indicateurs clés de performance et accéder aux données télémétriques critiques sur les clusters.
  • Vérifications de santé à la demande pour valider les performances du matériel et des clusters tout au long du cycle de vie de l’infrastructure.
  • Intégration de la gestion des bâtiments pour une meilleure coordination avec les systèmes de gestion des bâtiments afin de mieux contrôler les événements liés à l’alimentation électrique et au refroidissement, y compris la détection rapide des fuites.

Les principaux fabricants de systèmes intègrent NVIDIA Mission Control aux serveurs Grace Blackwell

Les principaux fabricants de systèmes prévoient de proposer les systèmes NVIDIA GB200 NVL72 et GB300 NVL72 avec NVIDIA Mission Control.

Dell prévoit de proposer le logiciel NVIDIA Mission Control dans le cadre de son offre d’usine d’IA avec NVIDIA.

« La révolution industrielle de l’IA exige une infrastructure efficace qui s’adapte aussi vite que l’entreprise évolue, et c’est ce que propose l’usine d’IA de Dell avec NVIDIA, avec ses capacités complètes de calcul, de mise en réseau, de stockage et d’assistance », explique Ihab Tarazi, directeur de la technologie et vice-président senior de Dell Technologies. « L’association du logiciel NVIDIA Mission Control et des serveurs Dell PowerEdge XE9712 et XE9680 permet aux entreprises de faire facilement évoluer leurs modèles pour répondre aux exigences de l’entraînement et de l’inférence, en transformant les données en éclairages exploitables plus rapidement que jamais. »

HPE proposera les systèmes NVIDIA GB200 NVL72 by HPE et GB300 NVL72 by HPE avec le logiciel NVIDIA Mission Control.

« Nous aidons les fournisseurs de services et les entreprises de pointe à déployer, à faire évoluer et à optimiser rapidement des clusters d’IA complexes capables d’entraîner des modèles à plusieurs billions de paramètres », explique Trish Damkroger, vice-présidente senior et directrice générale des solutions d’infrastructure de calcul intensif et d’IA chez HPE. « Dans le cadre de notre collaboration avec NVIDIA, nous allons fournir des systèmes NVIDIA Grace Blackwell à l’échelle du rack et le logiciel Mission Control, ainsi que les services internationaux et l’expertise de HPE en matière de refroidissement liquide, afin de donner vie à la nouvelle ère de l’IA. »

Lenovo compte améliorer ses systèmes « Lenovo Hybrid AI Advantage with NVIDIA » pour y inclure le logiciel NVIDIA Mission Control.

« L’intégration du logiciel NVIDIA Mission Control aux systèmes Lenovo Hybrid AI Advantage with NVIDIA permet aux entreprises de répondre aux exigences des charges de travail d’IA générative et agentique avec une agilité inégalée », se réjouit Brian Connors, vice-président mondial et directeur général du segment Entreprises et PME et du groupe Solutions d’infrastructure et d’IA chez Lenovo. « En automatisant l’orchestration de l’infrastructure et en permettant des transitions fluides entre les charges de travail d’entraînement et d’inférence, Lenovo et NVIDIA aident leurs clients à faire évoluer l’innovation en matière d’IA au rythme de leur activité. »

Supermicro prévoit d’intégrer le logiciel NVIDIA Mission Control dans ses systèmes Supercluster.

« Supermicro est fier de s’associer à NVIDIA sur un système Grace Blackwell NVL72 entièrement pris en charge par le logiciel NVIDIA Mission Control », déclare Cenly Chen, directeur de la croissance chez Supermicro. « Le logiciel NVIDIA Mission Control fonctionne sur les systèmes AI SuperCluster de Supermicro avec NVIDIA Grace Blackwell et offre aux clients une suite logicielle de gestion simple pour maximiser les performances des systèmes NVIDIA GB200 NVL72 actuels et des futures plateformes telles que NVIDIA GB300 NVL72. »

Base Command Manager disponible gratuitement pour aider à gérer les clusters d’IA

Afin d’aider les entreprises à gérer leur infrastructure, le logiciel NVIDIA Base Command Manager devrait être bientôt disponible gratuitement pour jusqu’à huit accélérateurs par système, quelle que soit la taille des clusters, avec la possibilité d’acheter séparément l’assistance NVIDIA pour les entreprises.

Disponibilité

NVIDIA Mission Control pour les systèmes NVIDIA DGX GB200 et DGX B200 est disponible dès aujourd’hui. Les systèmes NVIDIA GB200 NVL72 avec Mission Control seront bientôt disponibles chez Dell, HPE, Lenovo et Supermicro.

NVIDIA Mission Control devrait être disponible pour les tout nouveaux systèmes NVIDIA DGX GB300, DGX B300 et GB300 NVL72 dans le courant de l’année, auprès des plus grands fournisseurs au monde.

Consultez l’avis sur les informations relatives aux produits logiciels.