Aujourd’hui, plus de 1,5 milliard de caméras d’entreprise déployées dans le monde génèrent environ 7 000 milliards d’heures de vidéo par an. Pourtant, seule une fraction de ces heures est analysée.
On estime que moins de 1 % des vidéos des caméras industrielles sont regardées en direct par les humains, ce qui signifie que les incidents opérationnels critiques peuvent passer en grande partie inaperçus.
Cela a un coût élevé. Par exemple, les fabricants perdent des milliards de dollars chaque année en raison de la mauvaise qualité des produits ou des défauts qu’ils auraient pu repérer plus tôt, ou même prédire, en utilisant des agents d’IA capables de percevoir, d’analyser et d’aider les humains à agir.
Les agents d’IA interactifs avec des capacités de perception visuelle intégrées peuvent servir d’analystes vidéo toujours actifs, aidant les usines à fonctionner plus efficacement, à renforcer la sécurité des travailleurs, à assurer le bon fonctionnement du trafic et à même d’améliorer le jeu d’un athlète.
Pour accélérer la création de tels agents, NVIDIA a annoncé aujourd’hui un accès anticipé à une nouvelle version du modèle de NVIDIA pour l’IA pour la recherche et le résumé vidéo. Construit sur la plateforme NVIDIA Metropolis et désormais suralimenté par les modèles de langage de vision (VLM) NVIDIA Cosmos Nemotron, les modèles de langage de grande taille (LLM) NVIDIA Llama Nemotron et NVIDIA NeMo Retriever, le modèle fournit aux développeurs les outils pour créer et déployer des agents d’IA capables d’analyser de grandes quantités de contenu vidéo et d’image.
Le modèle intègre la plateforme logicielle NVIDIA AI Enterprise, qui comprend les microservices NVIDIA NIM pour les VLM, les LLM et les frameworks d’IA avancés pour la génération augmentée par récupération, pour permettre un traitement vidéo par lots 30 fois plus rapide que le visionnage en temps réel.
Le modèle contient plusieurs fonctionnalités d’IA agentique, comme le raisonnement en chaîne de pensée, la planification des tâches et l’appel d’outils, qui peuvent aider les développeurs à rationaliser la création d’agents visuels puissants et variés pour résoudre divers problèmes.
Les agents d’IA avec des capacités d’analyse vidéo peuvent être combinés avec d’autres agents dotés de compétences différentes pour offrir des services d’IA agentique encore plus sophistiqués. Les entreprises ont la possibilité de créer et de déployer leurs agents d’intelligence artificielle de l’edge jusqu’au cloud.
Comment les agents d’analyse vidéo peuvent aider les entreprises industrielles
Les agents d’analyse vidéo dotés de compétences en matière de perception et d’analyse visuelles peuvent être perfectionnés pour aider les entreprises dans leurs activités industrielles :
- Augmenter la productivité et réduire le gaspillage : Les agents peuvent veiller à ce que les procédures opérationnelles standard soient respectées au cours de processus industriels complexes comme l’assemblage de produits. Ils peuvent également être ajustés pour observer et comprendre attentivement les actions nuancées et la séquence dans laquelle elles sont mises en œuvre.
- Améliorer l’efficacité de la gestion des actifs grâce à une meilleure utilisation de l’espace : Les agents peuvent contribuer à optimiser le stockage des stocks dans les entrepôts en effectuant une estimation des volumes en 3D et en centralisant la compréhension des différents flux de caméras.
- Amélioration de la sécurité grâce à la génération automatique des rapports et des résumés d’incidents : les agents peuvent traiter d’énormes volumes de vidéo et les résumer en des rapports d’accidents informatifs contextuels. Ils peuvent également contribuer à assurer la conformité des équipements de protection individuelle dans les usines, améliorant la sécurité des travailleurs dans les environnements industriels.
- Prévention des accidents et des problèmes de production : les agents d’IA peuvent identifier les activités atypiques pour atténuer rapidement les risques opérationnels et de sécurité, que ce soit dans un entrepôt, une usine ou un aéroport, ou à une intersection de circulation ou dans un autre cadre public.
- Apprendre du passé : les agents peuvent rechercher dans les archives vidéo des opérations, trouver des informations pertinentes du passé et les utiliser pour résoudre des problèmes ou créer de nouveaux processus.
Analystes vidéo pour le sport, le divertissement et plus
Un autre secteur où les agents d’IA pour l’analyse vidéo sont susceptibles de faire leur marque est le sport, un marché de 500 milliards de dollars dans le monde, avec une croissance de plusieurs centaines de milliards de dollars annoncée au cours des prochaines années.
Les entraîneurs, les équipes et les ligues, qu’ils soient professionnels ou amateurs, s’appuient sur l’analyse vidéo pour évaluer et améliorer les performances des joueurs, donner la priorité à la sécurité et renforcer l’engagement des fans grâce à des plateformes d’analyse des joueurs et à la visualisation des données. Avec les agents d’IA perceptifs visuellement, les athlètes ont désormais un accès sans précédent à des informations plus approfondies et à des opportunités d’amélioration.
Lors de son discours d’ouverture du CES, le fondateur et PDG de NVIDIA, Jensen Huang, a présenté un agent d’analyse vidéo d’IA capable d’évaluer les compétences de lancement rapide de balle d’un joueur de baseball amateur par rapport à celles d’un professionnel. À l’aide de la vidéo capturée lors du premier lancement cérémoniel que Huang a effectué pour l’équipe de baseball des Giants de San Francisco, l’agent d’IA pour l’analyse vidéo a été en mesure de suggérer des domaines d’amélioration.