NVIDIA Nemotron 3 Super offre un débit 5 fois supérieur pour l'IA agentique

Mercredi, NVIDIA a lancé Nemotron 3 Super, un modèle ouvert de 120 milliards de paramètres avec 12 milliards de paramètres actifs conçu pour exécuter des systèmes d’IA agentique complexes à grande échelle.

Ce modèle, désormais disponible, combine des capacités de raisonnement avancées pour effectuer efficacement des tâches avec une grande précision pour les agents autonomes.

AI-Natives : Perplexity offre à ses utilisateurs un accès à Nemotron 3 Super via le navigateur Web et l’API. Les entreprises qui offrent des agents de codage logiciel, tels que CodeRabbit, Factory et Greptile, intègrent le modèle à leurs agents d’IA ainsi que des modèles propriétaires pour atteindre une précision supérieure à un coût réduit. Les entreprises de sciences de la vie telles que Edison Scientific et Lila Sciences vont permettre à leurs agents de réaliser des recherches documentaires approfondies, de Data Science et de compréhension moléculaire.

Plateformes logicielles d’entreprise : les leaders de l’industrie tels que Amdocs, Palantir, Cadence, Dassault Systèmes et Siemens déploient le modèle pour automatiser les workflows dans les domaines des télécommunications, de la cybersécurité, de la conception de semi-conducteurs et de la fabrication.

À mesure que les entreprises dépassent les chatbots pour s’orienter vers des applications multi-agents, elles sont confrontées à deux contraintes.

La première est l’explosion de contexte. Les workflows multi-agents génèrent jusqu’à 15 fois plus de jetons que le chat standard, car chaque interaction nécessite la réexpédition d’un historique complet, qui inclut les résultats des outils et le raisonnement intermédiaire.

Sur les tâches longues, ce volume de contexte augmente les coûts et peut entraîner une dérive des objectifs, où les agents perdent leur alignement sur l’objectif original.

La deuxième est la taxe sur la réflexion. Les agents complexes doivent raisonner à chaque étape, mais l’utilisation de grands modèles pour chaque sous-tâche rend les applications multi-agents trop coûteuses et trop lentes pour les applications pratiques.

Nemotron 3 Super dispose d’une fenêtre de contexte d’un million de jetons, permettant aux agents de conserver l’état complet du workflow en mémoire et empêchant la dérive d’objectif.

Nemotron 3 Super a établi de nouvelles normes, en obtenant la première place sur Artificial Analysis en matière d’efficacité et d’ouverture avec une précision de pointe parmi les modèles de même taille.

Architecture hybride

Nemotron 3 Super utilise une architecture hybride Mixture-of-Experts qui combine trois innovations majeures pour offrir un débit jusqu’à 5 fois supérieur et une précision jusqu’à 2 fois supérieure à celle du modèle Nemotron Super précédent.

Architecture hybride : les couches Mamba offrent une efficacité de mémoire et de calcul 4 fois supérieure, tandis que les couches transformer stimulent un raisonnement avancé.
Mixture-of-Experts (MoE) : seuls 12 milliards de ses 120 milliards de paramètres sont actifs pour l’inférence.
Latent MoE : une nouvelle technique qui améliore la précision en activant quatre experts spécialisés pour le coût d’un seul pour générer le jeton suivant à l’inférence.
Multi-Token Prediction (MTP) : prédit plusieurs mots futurs simultanément, pour une inférence 3 fois plus rapide.

Sur NVIDIA Blackwell, le modèle s’exécute en précision NVFP4. Cela réduit les exigences en mémoire et rend l’inférence jusqu’à 4 fois plus rapide que FP8 sur NVIDIA Hopper, sans perte de précision.

Poids, données et recettes ouverts

NVIDIA lance Nemotron 3 Super à poids ouverts sous une licence permissive. Les développeurs peuvent le déployer et le personnaliser sur des stations de travail, dans des Data Centers ou dans le Cloud.

Le modèle a été entraîné sur des données synthétiques générées à l’aide de modèles de raisonnement de pointe. NVIDIA publie la méthodologie complète, notamment plus de 10 billions de jetons de jeux de données de pré-entraînement et de post-entraînement, 15 environnements d’entraînement pour l’apprentissage par renforcement et les recettes d’évaluation. Les chercheurs peuvent utiliser NVIDIA NeMo pour affiner le modèle ou créer le leur.

Utilisation dans les systèmes agentiques

Nemotron 3 Super est conçu pour gérer des sous-tâches complexes dans un système multi-agents.

Un agent de développement logiciel peut charger une base de code entière en contexte, permettant ainsi la génération et le débogage de bout en bout sans segmentation des documents.

En matière d’analyse financière, il peut charger des milliers de pages de rapports en mémoire, éliminant ainsi la nécessité de « re-raisonner » au cours de longues conversations, ce qui améliore l’efficacité.

Nemotron 3 Super dispose d’appels d’outils de haute précision qui garantissent aux agents autonomes une navigation fiable dans d’énormes bibliothèques de fonctions pour éviter les erreurs d’exécution dans des environnements à enjeux élevés tels que l’orchestration de sécurité autonome en cybersécurité.

Disponibilité

NVIDIA Nemotron 3 Super, qui fait partie de la famille Nemotron 3, est disponible dès maintenant. Le modèle est disponible sur build.nvidia.com, Perplexity, OpenRouter et Hugging Face.

Les entreprises et les développeurs peuvent déployer le modèle via plusieurs partenaires :

Fournisseurs de services Cloud (CSP) : Amazon Web Services (AWS), Vertex AI de Google Cloud, Microsoft Azure et Oracle Cloud Infrastructure (OCI).
NVIDIA Cloud Partners (NCP) : Coreweave, Crusoe, Nebius et Together AI.
Fournisseurs de services d’inférence (ISP) : Baseten, CloudFlare, DeepInfra, Fireworks AI, Inference.net, Lightning AI, Modal, FriendliAI.
Partenaires de données, de plateformes et de services : Dataiku, DataRobot, Deloitte, EY, HPE, Tata Consultancy Services.

Le modèle est présenté sous forme de NVIDIA NIM, permettant un déploiement à partir de systèmes sur site vers le Cloud.