Des assistants basés sur l’IA effectuant des recherches approfondies aux véhicules autonomes prenant des décisions de navigation en une fraction de seconde, l’adoption de l’IA explose dans tous les secteurs.
Derrière chacune de ces interactions se cache l’inférence, étape postérieure à l’entraînement où un modèle d’IA traite les données d’entrée pour produire les données de sortie en temps réel.
Les modèles de raisonnement de l’IA les plus avancés d’aujourd’hui, capables de logique à plusieurs étapes et de prise de décision complexe, génèrent beaucoup plus de jetons par interaction que les modèles plus anciens, ce qui entraîne une augmentation de l’utilisation des jetons et la nécessité d’une infrastructure capable de fabriquer de l’intelligence évolutive.
Les usines d’IA sont un moyen de répondre à ces besoins croissants.
Mais exécuter une inférence à une telle échelle ne consiste pas seulement à résoudre le problème en s’appuyant sur davantage de calculs.
Pour déployer l’IA avec une efficacité maximale, l’inférence doit être évaluée sur la base du framework Think SMART :
- Scale and Complexity (échelle et complexité)
- Multidimensional Performance (performances multidimensionnelles)
- Architecture and Software (architecture et logiciels)
- Return On Investment Driven by Performance (retour sur investissement guidé par la performance)
- Technology Ecosystem and Install Base (ècosystème technologique et base d’installation)
Échelle et complexité
À mesure que les modèles évoluent, passant d’applications compactes à des systèmes multi-experts complexes, l’inférence doit suivre le rythme de charges de travail de plus en plus diversifiées, qu’il s’agisse de réponse rapide à des requêtes unique ou de raisonnement à plusieurs étapes impliquant des millions de jetons.
L’expansion de la taille et de la complexité des modèles d’IA s’accompagne d’implications majeures pour l’inférence, telles que l’intensité des ressources, la latence et le débit, l’énergie et les coûts, ainsi que la diversité des cas d’utilisation.
Pour répondre à cette complexité, les fournisseurs de services d’IA et les entreprises spécialisées améliorent leur infrastructure, avec de nouvelles usines d’IA mises à disposition par des partenaires tels que CoreWeave, Dell Technologies, Google Cloud et Nebius.
Performance multidimensionnelle
La mise à l’échelle de déploiements complexes d’IA signifie que les usines d’IA ont besoin de la flexibilité nécessaire pour les jetons dans un large éventail de cas d’utilisation tout en équilibrant la précision, la latence et les coûts.
Certaines charges de travail, telles que la traduction de synthèse vocale en temps réel, requièrent une latence ultra-faible et un grand nombre de jetons par utilisateur, ce qui sollicite les ressources de calcul pour une réactivité maximale. D’autres sont insensibles à la latence mais sollicitent un débit élevé, comme la génération simultanée de réponses à des dizaines de questions complexes.
Cependant, la majorité des scénarios en temps réel les plus populaires se situent entre les deux : ils nécessitent des réponses rapides pour satisfaire les utilisateurs et un débit élevé pour servir simultanément des millions d’utilisateurs, tout en minimisant le coût par jeton.
Par exemple, la plateforme d’inférence de NVIDIA est conçue pour équilibrer la latence et le débit, en plus d’alimenter les benchmarks d’inférence sur des modèles tels que gpt-oss, DeepSeek-R1 et Llama 3.1.
Mesures à prendre pour obtenir une performance multidimensionnelle optimale
- Débit : Combien de jetons par seconde le système peut-il traiter ? Plus le nombre de jetons est élevé, mieux le système peut faire évoluer les charges de travail et les revenus.
- Latence : À quelle vitesse le système répond-il à chaque invite ? Une latence plus faible signifie une meilleure expérience pour les utilisateurs, ce qui est essentiel pour les applications interactives.
- Évolutivité : La configuration du système peut-elle s’adapter rapidement à l’augmentation de la demande, passant d’un à des milliers de GPU sans restructuration complexe ni gaspillage de ressources ?
- Rentabilité : Le rendement par dollar est-il élevé et ces gains sont-ils durables à mesure que les exigences envers le système augmentent ?
Architecture et logiciels
Les performances d’inférence d’IA doivent être conçues à partir de zéro. Il s’agit de matériel et de logiciels fonctionnant en synchronisation : GPU, mise en réseau et code doivent être optimisés pour éviter les goulots d’étranglement et tirer le meilleur parti de chaque cycle.
Une architecture puissante sans orchestration intelligente gaspille du potentiel, tandis qu’un logiciel de qualité sans matériel rapide et à faible latence délivre des performances lentes. Il est donc essentiel de trouver l’architecture de système qui puisse transformer les invites en réponses utiles de manière rapide, efficace et flexible.
Les entreprises peuvent utiliser l’infrastructure de NVIDIA pour concevoir un système offrant des performances optimales.
Architecture optimisée pour l’inférence à l’échelle de l’usine d’IA
La plateforme NVIDIA Blackwell contribue à augmenter de 50 fois la productivité d’une usine d’IA en matière d’inférence, ce qui permet aux entreprises d’optimiser le débit et la réactivité interactive, même pour l’exécution des modèles les plus complexes.
Le système NVIDIA GB200 NVL72 à l’échelle du rack connecte 36 CPU NVIDIA Grace et 72 GPU Blackwell à l’interconnexion NVIDIA NVLink, offrant un potentiel de revenus 40 fois plus élevé, mais aussi un débit multiplié par 30, une efficacité énergétique 25 fois supérieure et une efficacité hydraulique 300 fois plus élevée pour les charges de travail de raisonnement d’IA les plus complexes.
Par ailleurs, NVFP4 est un format à faible précision qui offre des performances optimales sur NVIDIA Blackwell tout en réduisant les besoins en énergie, en mémoire et en bande passante sans compromettre la précision, afin que les utilisateurs puissent traiter davantage de requêtes par watt et réduire les coûts par jeton.
Plateforme d’inférence full-stack accélérée sur Blackwell
L’inférence à l’échelle de l’usine d’IA exige plus qu’une architecture accélérée. Elle nécessite une plateforme full-stack avec plusieurs couches de solutions et d’outils à même de travailler de concert.
Les déploiements d’IA modernes nécessitent une mise à l’échelle automatique dynamique d’un à des milliers de GPU. La plateforme NVIDIA Dynamo pilote l’inférence distribuée pour affecter dynamiquement les GPU et optimiser les flux de données, offrant jusqu’à 4 fois plus de performances sans augmenter les coûts. Les nouvelles intégrations cloud améliorent encore l’évolutivité et la facilité de déploiement.
Pour les charges de travail d’inférence axées sur l’obtention de performances par GPU optimales, telles que l’accélération de grands modèles MoE (Mixture of Experts), des frameworks comme NVIDIA TensorRT-LLM aident les développeurs à atteindre des performances inimaginables.
Avec son nouveau workflow centré sur PyTorch, TensorRT-LLM rationalise le déploiement de l’IA en éliminant le besoin de gestion manuelle du moteur. Ces solutions ne sont pas seulement puissantes individuellement puisqu’elles sont conçues pour fonctionner en tandem. Par exemple, en utilisant Dynamo et TensorRT-LLM, les fournisseurs d’inférence critique comme Baseten peuvent immédiatement fournir des performances de modèle de pointe, même sur des modèles aussi innovants que gpt-oss.
Du côté des modèles, des séries comme NVIDIA Nemotron sont conçues avec des données d’entraînement ouvertes pour une totale transparence, tout en générant des jetons suffisamment rapidement pour gérer des tâches de raisonnement avancées avec une grande précision, le tout sans augmenter les coûts de calcul. Avec NVIDIA NIM, ces modèles peuvent être regroupés en microservices prêts à l’emploi, ce qui facilite le déploiement et l’évolutivité pour les équipes au sein des différents environnements tout en réduisant le coût total de possession.
Ensemble, ces couches – orchestration dynamique, exécution optimisée, modèles bien conçus et déploiement simplifié – forment l’épine dorsale de la mise en œuvre de l’inférence pour les entreprises et les fournisseurs de services cloud.
Retour sur investissement guidé par la performance
À mesure que l’adoption de l’IA se développe, les entreprises cherchent de plus en plus à maximiser le retour sur investissement de chaque requête utilisateur.
Or la performance est le principal moteur du retour sur investissement. Un quadruplement des performances de l’architecture NVIDIA Hopper sur Blackwell permet une croissance des bénéfices jusqu’à 10 fois plus élevée pour un coût énergétique similaire.
Dans les datacenters et les usines d’IA à puissance limitée, générer plus de jetons par watt se traduit directement par des revenus plus élevés par rack. Gérer efficacement le débit des jetons en trouvant le meilleur équilibre entre latence, précision et charge utilisateur est donc essentiel pour réduire les coûts.
L’industrie constate une réduction rapide des coûts, qui peut aller jusqu’à 80 % par million de jetons grâce à des optimisations au niveau de la pile. Les mêmes gains sont réalisables en exécutant gpt-oss et d’autres modèles open-source de l’écosystème d’inférence de NVIDIA, que ce soit via des Data Centers Hyperscale ou sur des PC basés sur l’IA en local.
Écosystème technologique et base d’installation
Au fur et à mesure que les modèles évoluent, avec des fenêtres contextuelles plus longues, des jetons plus nombreux et des comportements d’exécution plus sophistiqués, leurs performances d’inférence s’adaptent.
Les modèles ouverts sont une force motrice de cette dynamique, ce qui permet d’accélérer aujourd’hui plus de 70 % des charges de travail d’inférence d’IA. Ils permettent aux startups et aux entreprises de concevoir des agents, des applications et des copilotes personnalisés dans tous les secteurs.
Les communautés open-source jouent un rôle essentiel dans l’écosystème de l’IA générative en favorisant la collaboration, en accélérant l’innovation et en démocratisant l’accès. NVIDIA a plus de 1 000 projets open-source sur GitHub, en plus de ses 450 modèles et 80 jeux de données sur Hugging Face. Ces outils permettent d’intégrer des frameworks aussi populaires que JAX, PyTorch, vLLM et TensorRT-LLM sur la plateforme d’inférence de NVIDIA afin de garantir des performances d’inférence et une flexibilité maximales dans toutes les configurations.
C’est pourquoi NVIDIA continue de contribuer à des projets open-source comme llm-d et à collaborer avec des leaders de l’industrie sur des modèles ouverts, notamment Llama, Google Gemma, NVIDIA Nemotron, DeepSeek et gpt-oss, favorisant ainsi le passage des applications d’IA de simple idée à la phase de production à une vitesse folle.
De l’importance de l’inférence optimisée
La plateforme d’inférence de NVIDIA, associée au framework Think SMART pour le déploiement de charges de travail d’IA modernes, aide les entreprises à s’assurer que leur infrastructure peut répondre aux exigences de modèles en évolution constante et que chaque jeton généré octroie une valeur maximale.
Découvrez comment l’inférence stimule le potentiel de génération de revenus des usines d’IA.
Pour recevoir nos mises à jour mensuelles, inscrivez-vous à la newsletter de NVIDIA Think SMART.