Lors de la Conference on Robot Learning (CoRL) à Munich, en Allemagne, Hugging Face et NVIDIA ont annoncé collaborer pour accélérer la recherche et le développement en robotique en réunissant leurs communautés open-source.
La plateforme d’IA ouverte LeRobot de Hugging Face combinée aux technologies de robotique NVIDIA AI, Omniverse et Isaac vont permettre aux chercheurs et aux développeurs de faire progresser les technologies dans un large éventail d’industries, notamment la fabrication, la santé et la logistique.
La robotique open-source à l’ère de l’IA physique
L’ère de l’IA physique (les robots qui comprennent les propriétés physiques des environnements) est arrivée, et elle transforme rapidement les industries du monde entier.
Pour stimuler et pérenniser cette innovation, les chercheurs et les développeurs en robotique doivent accéder à des frameworks open-source extensibles qui couvrent l’entraînement, la simulation et l’inférence des robots. Les modèles, jeux de données et workflows étant publiés via des frameworks partagés, les avancées les plus récentes sont facilement disponibles et peuvent être employées sans avoir à recréer du code.
La principale plateforme d’IA ouverte de Hugging Face est utilisée par plus de 5 millions de chercheurs et de développeurs en apprentissage automatique, et propose des outils et des ressources pour simplifier le développement de l’IA. Les utilisateurs de Hugging Face peuvent accéder aux derniers modèles pré-entraînés, les affiner et créer des pipelines d’IA à partir d’API communes avec plus de 1,5 million de modèles, de jeux de données et d’applications librement accessibles sur le Hugging Face Hub.
Avec LeRobot, Hugging Face élargit les paradigmes réussis de ses bibliothèques Transformers et Diffusers vers le domaine de la robotique. LeRobot propose une suite complète d’outils pour le partage de la collecte de données, de l’entrainement de modèles et d’environnements de simulation, outre des kits de manipulation abordables.
Chez NVIDIA, la technologie d’IA, la simulation et le framework modulaire open-source pour l’apprentissage des robots comme NVIDIA Isaac Lab permettent d’accélérer les workflows de collecte de données, d’entraînement et de vérification de LeRobot. Les chercheurs et les développeurs peuvent ainsi partager leurs modèles et jeux de données créés avec LeRobot et Isaac Lab afin de développer une plateforme à destination de la communauté en robotique.
Faire évoluer le développement de robots grâce à la simulation
Développer l’IA physique n’est pas chose aisée. À la différence des modèles de langage, qui utilisent des données de texte récupérées sur Internet, la robotique basée sur la physique repose sur des données issues d’interactions physiques et de capteurs de vision, ce qui les rend plus difficiles à rassembler à grande échelle. La collecte de données réelles de robots issues de manipulations dans le cadre d’un large éventail de tâches et d’environnements prend beaucoup de temps et demande beaucoup de travail.
Pour faciliter les choses, Isaac Lab, basé sur NVIDIA Isaac Sim, permet l’entraînement des robots par démonstration ou par essais et erreurs via des simulations qui exploitent des rendus et une physique haute fidélité afin de créer des environnements et des données synthétiques réalistes. En combinant des simulations physiques accélérées par GPU et l’exécution d’environnements parallèles, Isaac Lab permet de générer de grandes quantités de données d’entraînement (équivalentes à des milliers d’expériences réelles) à partir d’une seule démonstration.
Les données de mouvement générées sont ensuite utilisées pour former des procédures via l’apprentissage par imitation. Après avoir été entraînées et validées en simulation, ces procédures sont déployées sur un robot réel, où elles sont testées et ajustées pour obtenir des performances optimales.
Ce processus itératif exploite la précision des données réelles et l’évolutivité des données synthétiques simulées, ce qui garantit la mis en œuvre des systèmes robotiques robustes et fiables.
En partageant ces ensembles de données, procédures et modèles sur Hugging Face, il est possible de créer une plateforme de données robotiques qui permet aux développeurs et aux chercheurs de tirer parti des travaux des uns et des autres pour accélérer les progrès dans le domaine.
« La communauté en robotique démontre son plein potentiel quand nous créons ensemble », explique Animesh Garg, professeur adjoint à Georgia Tech. « En adoptant des frameworks open-source comme LeRobot de Hugging Face et NVIDIA Isaac Lab, nous accélérons le rythme de la recherche et de l’innovation dans le domaine de la robotique basée sur l’IA. »
Favoriser la collaboration et l’engagement de la communauté
Le workflow collaboratif prévu comprend la collecte de données par téléopération et simulation dans Isaac Lab et leur stockage au format LeRobotDataset standard. Les données générées à l’aide de GR00T-Mimic seront ensuite utilisées pour entraîner un schéma de robot via l’apprentissage par imitation, qui sera ensuite évaluée lors d’une simulation. Enfin, la politique validée sera déployée sur des robots réels à l’aide de NVIDIA Jetson pour une inférence en temps réel.
Les premières étapes de cette collaboration ont déjà été franchies et ont montré qu’une installation physique avec le logiciel LeRobot fonctionnant sur NVIDIA Jetson Orin Nano permet de mettre en œuvre une plateforme de calcul puissante et compacte pour le déploiement.
« La combinaison de la communauté open-source Hugging Face avec le matériel NVIDIA et la simulation Isaac Lab peut potentiellement accélérer l’innovation dans le domaine de l’IA en robotique », explique Remi Cadene, chercheur principal chez LeRobot.
Ces travaux s’appuient sur les apports de la communauté NVIDIA en matière d’IA générative à l’Edge et viennent compléter les nouveaux modèles et bibliothèques ouverts, comme Hugging Face Transformers, en optimisant l’inférence pour les grands modèles de langage (LLM), les petits modèles de langage (SLM), les modèles de langage de vision multimodale (VLM) ainsi que leurs variantes basées sur l’action (modèles d’action de langage de vision, ou VLA), les politiques de diffusion et les modèles vocaux, le tout avec le soutien de la communauté.
Ensemble, Hugging Face et NVIDIA veulent accélérer le travail de l’écosystème mondial de chercheurs et de développeurs en robotique et transformer les secteurs d’activité allant du transport à la fabrication en passant par la logistique.
Découvrez les articles de recherche de NVIDIA sur la robotique lors de la CoRL, portant sur des sujets tels que l’intégration des VLM pour une meilleure compréhension de l’environnement, une meilleure navigation temporelle et une meilleure planification à long terme. Découvrez les ateliers de la CoRL avec les chercheurs de NVIDIA.