NVIDIA passe à la production avec Dynamo, le système d'exploitation d'inférence largement adopté pour les usines d'IA

Résumé des actualités :

NVIDIA Dynamo 1.0 fournit une base open-source de niveau production pour l’inférence à grande échelle.
Les optimisations de Dynamo et de NVIDIA TensorRT-LLM s’intègrent de manière native à des frameworks open-source tels que LangChain, llm-d, LMCache, SGLang et vLLM pour augmenter les performances d’inférence.
Dynamo augmente jusqu’à 7 fois les performances d’inférence des GPU NVIDIA Blackwell, ce qui réduit le coût des tokens et augmente les opportunités de revenus pour des millions de GPU avec des logiciels open-source gratuits.
Plateforme d’inférence de NVIDIA intégrée par des fournisseurs de services Cloud, Amazon Web Services (AWS), Microsoft Azure, Google Cloud et Oracle Cloud Infrastructure (OCI), ainsi que des partenaires Cloud de NVIDIA Alibaba Cloud, CoreWeave, Together AI et Nebius — et adoptée par des entreprises natives de l’IA comme Cursor et Perplexity ; des fournisseurs de points d’inférence Baseten, Deep Infra et Fireworks ; et des entreprises mondiales telles que Amazon, ByteDance, Meituan, PayPal et Pinterest.

SAN JOSE, Californie — GTC — 16 mars 2026 — NVIDIA a annoncé aujourd’hui NVIDIA Dynamo 1.0, un logiciel open source pour l’inférence générative et agentique à grande échelle, bénéficiant d’une adoption mondiale massive. Associé à la plateforme NVIDIA Blackwell, Dynamo 1.0 permet aux fournisseurs de Cloud, aux innovateurs en matière d’IA et aux entreprises internationales de fournir une inférence d’IA haute performance à un niveau d’échelle, une efficacité et une vitesse inégalées.

À mesure que les systèmes d’IA agentique passent en phase de production dans tous les secteurs, la mise à l’échelle de l’inférence au sein d’un Data Center est devenue un défi complexe d’orchestration des ressources, avec des requêtes de tailles et de modalités variées, ainsi que des objectifs de performance, arrivant par pics d’activité imprévisibles.

Tout comme le système d’exploitation d’un ordinateur coordonne le matériel et les applications, Dynamo 1.0 fonctionne comme le « système d’exploitation » distribué des (AI Factories) usines d’IA, orchestrant de manière transparente les ressources GPU et de mémoire sur l’ensemble du cluster pour alimenter des charges de travail d’IA complexes. Lors de récents benchmarks industriels, Dynamo a multiplié par 7 les performances d’inférence des GPU NVIDIA Blackwell, ce qui a permis de réduire le coût des tokens et d’augmenter les opportunités de revenus pour des millions de GPU avec des logiciels open-source gratuits.

« L’inférence est le moteur de l’intelligence qui alimente toutes les requêtes, tous les agents et toutes les applications », explique Jensen Huang, fondateur et PDG de NVIDIA. « Avec NVIDIA Dynamo, nous avons créé le tout premier « système d’exploitation » pour les usines d’IA. L’adoption rapide dans tout notre écosystème montre que cette nouvelle vague d’IA agentique est là, et NVIDIA l’alimente à l’échelle mondiale. »

Dynamo 1.0 divise les tâches d’inférence entre les GPU en ajoutant un contrôle du trafic plus intelligent et la capacité de transférer des données entre des GPU et des systèmes de stockage à moindre coût, ce qui réduit le gaspillage de travail et allège les limites de mémoire. Pour l’IA agentique et les prompts longs, il peut acheminer les requêtes vers les GPU qui disposent déjà de la « mémoire à court terme » la plus pertinente issue des étapes précédentes, puis décharger cette mémoire lorsqu’elle n’est plus nécessaire.

La plateforme d’inférence de NVIDIA prend de l’ampleur

NVIDIA accélère l’écosystème open-source en intégrant Dynamo et les optimisations de la bibliothèque NVIDIA TensorRT™-LLM dans les frameworks populaires de fournisseurs tels que LangChain, llm-d, LMCache, SGLang, vLLM et bien d’autres encore. Les modules de base de Dynamo tels que KVBM pour une gestion plus intelligente de la mémoire, NVIDIA NIXL pour un transfert rapide des données entre les GPU et NVIDIA Grove pour une mise à l’échelle simplifiée sont également disponibles en tant que modules autonomes. NVIDIA fournit également des noyaux TensorRT-LLM CUDA au projet FlashInfer afin qu’ils puissent être intégrés de manière native à des frameworks open-source.

La plateforme d’inférence de NVIDIA est supportée par l’ensemble de l’écosystème de l’IA, notamment :

Fournisseurs de services Cloud : Amazon Web Services (AWS), Microsoft Azure, Google Cloud, OCI
Partenaires Cloud de NVIDIA : Alibaba Cloud, CoreWeave, Crusoe, DigitalOcean, Gcore, GMI Cloud, Lightning AI, Nebius, Nscale, Together AI, Vultr
Entreprises spécialisées dans l’IA native : Cursor, Hebbia, Perplexity
Fournisseurs de points de terminaison d’inférence : Baseten, Deep Infra, Fireworks
Entreprises mondiales : AstraZeneca, BlackRock, ByteDance, Coupang, Instacart, Meituan, PayPal, Pinterest, Shopee, SoftBank Corp.

Chen Goldberg, vice-président exécutif des produits et de l’ingénierie chez CoreWeave, explique que : « À mesure que l’IA passe d’une phase expérimentale à une phase de production continue à grande échelle, l’infrastructure sous-jacente doit être aussi dynamique que les modèles qu’elle prend en charge. La prise en charge de NVIDIA Dynamo nous permet de proposer un environnement plus fluide et résilient pour le déploiement d’agents d’IA complexes. Cette base fournit la durabilité et l’orchestration hautes performances nécessaires pour faire passer les charges de travail agentiques les plus ambitieuses du secteur à une production mondiale. »

Danila Shtan, directrice de la technologie chez Nebius, a déclaré : « Fournir une inférence d’IA fiable à grande échelle ne repose pas uniquement sur des GPUs puissants, mais aussi sur des logiciels qui transforment ces performances en résultats concrets pour les clients. Nous apprécions la façon dont la pile logicielle de NVIDIA, de Dynamo à TensorRT-LLM, offre une optimisation approfondie, des performances prévisibles et des délais de déploiement plus rapides, ce qui nous permet d’offrir à nos clients une voie plus simple et plus performante vers l’IA de production. »

Matt Madrigal, directeur de la technologie chez Pinterest, a déclaré : « Fournir une expérience d’IA intuitive et multimodale à des centaines de millions d’utilisateurs nécessite une intelligence en temps réel à l’échelle mondiale. » a déclaré. En tant qu’acteur majeur de l’open source, nous nous engageons à développer des technologies d’IA scalable. Grâce à l’optimisation de notre déploiement par NVIDIA Dynamo, nous élargissons les expériences fluides et personnalisées que nous proposons, basées sur une infrastructure IA haute performance. »

Vipul Ved Prakash, cofondateur et PDG de Together AI, a déclaré : « Les entreprises natives de l’IA nécessitent une inférence qui peut s’adapter de manière fiable et efficace à leur application. Combiné aux recherches de pointe de Together AI sur l’inférence, NVIDIA Dynamo 1.0 nous permet de fournir une pile logicielle haute performance afin d’offrir une inférence accélérée et rentable pour les charges de travail de production à grande échelle. »

Dynamo 1.0 est disponible dès aujourd’hui pour les développeurs du monde entier. Pour en savoir plus et commencer, lisez le blog et visitez la page Web Dynamo.