NVIDIA lance le modèle Nemotron 3 Nano Omni, unifiant la vision, l'audio et la langue pour créer des agents d'IA jusqu'à 9 fois plus efficaces

Les systèmes d’agents d’IA jonglent aujourd’hui entre des modèles distincts pour la vision, la parole et le langage, perdant du temps et du contexte lorsqu’ils transmettent des données d’un modèle à l’autre.

Dévoilé aujourd’hui, NVIDIA Nemotron 3 Nano Omni est un modèle multimodal ouvert qui regroupe ces capacités en un système unique, permettant aux agents de fournir des réponses plus rapides et plus intelligentes avec un raisonnement avancé pour la vidéo, l’audio, l’image et le texte.

Ce modèle de pointe offre aux entreprises et aux développeurs un parcours de production pour des agents d’IA multimodaux plus efficaces et précis avec une flexibilité et un contrôle complets en matière de déploiement.

Nemotron 3 Nano Omni établit une nouvelle frontière en matière d’efficacité pour les modèles multimodaux ouverts avec une précision de pointe et un coût faible, en se classant en tête des six classements pour l’intelligence de documents complexes et la compréhension vidéo et audio.

Les entreprises d’IA et de logiciels qui ont déjà adopté Nemotron 3 Nano Omni incluent Aible, Applied Scientific Intelligence (ASI), Eka Care, Foxconn, H Company et Pyler, avec Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle, Palantir et Zefr évaluant le modèle.

« Pour créer des agents utiles, vous ne pouvez pas attendre quelques secondes pour qu’un modèle interpréte un écran », a déclaré Gautier Cloix, PDG de H Company. « En s’appuyant sur Nemotron 3 Nano Omni, nos agents peuvent interpréter rapidement des enregistrements d’écran en Full HD, ce qui était peu pratique auparavant. Il ne s’agit pas seulement d’un gain de vitesse : c’est un changement fondamental dans la façon dont nos agents perçoivent et interagissent avec les environnements numériques en temps réel. »

Nemotron 3 Nano Omni permet des agents multimodaux plus rapides et plus légers

Envisagez un agent d’IA pour l’assistance client qui traite un enregistrement d’écran tout en analysant l’audio des appels téléchargés et en vérifiant les journaux de données, ou un agent pour la finance chargé d’analyser les fichiers PDF, les feuilles de calcul, les graphiques et les notes vocales. Aujourd’hui, la plupart des systèmes agentiques accomplissent ces tâches avec des modèles distincts pour la vision, la parole et le langage.

Cette approche augmente la latence en raison de passes d’inférence répétées, fragmente le contexte pour toutes les modalités et ajoute des coûts et des inexactitudes au fil du temps.

En combinant des codeurs de vision et audio au sein de son architecture hybride 30B-A3B à mélange d’experts, Nemotron 3 Nano Omni élimine le besoin de modèles de perception distincts, ce qui améliore l’efficacité à grande échelle. En tant que premier modèle ouvert à fournir à la fois ce niveau d’efficacité et une précision de perception multimodale élevée, il permet aux systèmes d’IA d’atteindre un débit jusqu’à 9 fois plus élevé que d’autres modèles Omni ouverts présentant une interactivité similaire. Il en résulte une réduction des coûts et une meilleure évolutivité, sans sacrifier la réactivité ou la qualité.

En combinant des codeurs de vision et audio au sein de son architecture hybride 30B-A3B, une architecture hybride Mixture-of-Experts, Nemotron 3 Nano Omni élimine le besoin de modèles de perception distincts, ce qui stimule l’efficacité de l’inférence à grande échelle. Il associe cette efficacité à une précision de perception multimodale élevée, permettant aux systèmes d’IA d’atteindre un débit 9 fois plus élevé que d’autres modèles Omni ouverts avec la même interactivité. Il en résulte une réduction des coûts et une meilleure évolutivité sans sacrifier la réactivité ou la qualité

Dans les systèmes agentiques, Nemotron 3 Nano Omni peut fonctionner avec des modèles Cloud propriétaires ou d’autres modèles ouverts NVIDIA Nemotron — tels que Nemotron 3 Super pour l’exécution à haute fréquence ou Nemotron 3 Ultra pour la planification complexe — ainsi qu’avec des modèles propriétaires d’autres fournisseurs pour alimenter des sous-agents pour des workflows agentiques tels que l’utilisation d’ordinateurs, l’intelligence documentaire et le raisonnement audio-vidéo.

Agents d’utilisation d’ordinateurs : Nemotron 3 Nano Omni alimente la boucle de perception pour les agents qui naviguent dans les interfaces utilisateur graphiques, qui raisonnent sur le contenu à l’écran et qui comprennent l’état de l’interface utilisateur au fil du temps. Le dernier agent d’utilisation informatique de H Company, alimenté par Nemotron 3 Nano Omni, utilise une résolution d’entrée native de 1 920x 1 080 pixels pour atteindre un raisonnement visuel à haute fidélité. Lors d’évaluations préliminaires sur le benchmark OSWorld, cette intégration a démontré une avancée significative dans la navigation dans des interfaces graphiques complexes et a exploité la capacité de Nemotron 3 Nano Omni à traiter des images à très haute résolution.
Intelligence documentaire: interprète des documents, des graphiques, des tableaux, des captures d’écran et des entrées multimédia, permettant aux agents de raisonner de manière cohérente sur la structure visuelle et le contenu textuel. Essentiel pour les workflows d’analyse d’entreprise et de conformité.
Compréhension audio et vidéo: pour le service client, la recherche et les workflows de surveillance, Nemotron 3 Nano Omni maintient le contexte audio-vidéo en intégrant ce qui a été dit, montré et documenté en un flux de raisonnement unique plutôt que des résumés dissociés.

Avant	Avec Nemotron 3 Nano Omni
Modèles séparés de vision, de parole et de langage	Modèle de raisonnement omnimodal unique Modèle Mod
Plusieurs passes d’inférence	Perception à passage unique
Fragmentation du contexte Contexte	Contexte unifié
Latence et coût plus élevés	Débit 9 fois plus élevé

Ouvert et personnalisable, déployable n’importe où

Nemotron 3 Nano Omni est disponible avec des poids, des jeux de données et des techniques d’entraînement ouverts, afin d’offrir aux entreprises une transparence et un contrôle complets sur la façon dont le modèle est personnalisé et déployé.

Les développeurs peuvent utiliser des outils tels que NVIDIA NeMo pour la personnalisation, l’évaluation et l’optimisation pour les cas d’utilisation spécifiques à un domaine. La gamme de modèles Nemotron étant ouverte, les entreprises peuvent les déployer dans des environnements répondant à des exigences réglementaires, en matière de souveraineté ou de localisation des données.

La gamme Nemotron 3, qui inclut les modèles Nano, Super et Ultra, a été téléchargée plus de 50 millions de fois au cours de l’année écoulée. Omni étend les capacités de cette gamme aux domaines multimodaux et agentiques.

Le modèle est disponible sur Hugging Face, OpenRouter et build.nvidia.com en tant que microservice NVIDIA NIM et via un large écosystème de partenaires Cloud de NVIDIA, de plateformes d’inférence et de fournisseurs de services Cloud.

Son architecture ouverte et légère prend en charge un déploiement cohérent, à partir de systèmes locaux tels que NVIDIA DGX Spark et DGX Station vers les environnements de Data Centers et de Cloud.

Consultez le blog technique de NVIDIA pour accéder à des tutoriels, à des guides de travail et à des guides de déploiement pour les cas d’utilisation Nemotron 3 Nano Omni.

Informez-vous sur l’IA agentique, NVIDIA Nemotron et sur d’autres sujets en vous abonnant à l’actualité de NVIDIA, en rejoignant la communauté et en suivant NVIDIA AI sur LinkedIn, Instagram, X et Facebook.

Découvrez des tutoriels vidéo à suivre à votre rythme et des livestreams.