Comment un modèle d’IA peut-il intégrer des capacités de raisonnement ? Grâce aux êtres humains

L’équipe Data Factory de NVIDIA conçoit les fonctionnalités de base des modèles d’IA tels que Cosmos Reason, qui vient de se classer en tête du classement Hugging Face pour le raisonnement physique.
by NVIDIA Writers
Comment un modèle d’IA peut-il intégrer des capacités de raisonnement ? Grâce aux êtres humains

Les modèles d’IA progressent rapidement à un rythme et à une échelle sans précédent.

Mais que peut-il leur manquer, contrairement aux êtres humains ? Eh bien, tout simplement du « bon sens », c’est-à-dire une faculté de compréhension développée grâce à des expériences dans le monde réel (avec l’intégration de concepts évidents, par exemple : les oiseaux ne peuvent pas voler en arrière, les miroirs réfléchissent la lumière et la glace fond dans l’eau).

Si de tels principes semblent d’une clarté indéniable pour les êtres humains, ils doivent être toutefois enseignés aux modèles d’IA chargés de répondre avec précision à des questions complexes ou de naviguer dans des environnements physiques imprévisibles, tels que les entrepôts industriels ou les routes.

NVIDIA relève ce défi en développant un ensemble d’outils de test pour former et préparer les modèles d’IA aux limitations du monde physique. En d’autres termes, il s’agit d' »enseigner le bon sens à l’IA ».

Ces tests visent à développer des modèles de raisonnement tels que NVIDIA Cosmos Reason, un modèle de langage de vision (VLM) ouvert pour le raisonnement utilisé pour les applications d’IA physique chargées de générer de réponses à pertinence temporelle. Cosmos Reason vient de se classer en première place du classement pour le raisonnement physique sur Hugging Face.

Cosmos Reason est véritablement unique par rapport aux VLM existants car il a été conçu pour accélérer le développement de l’IA physique dans des domaines tels que la robotique, les véhicules autonomes et les espaces intelligents. Le modèle peut déduire et raisonner via de nouveaux scénarios en utilisant des connaissances physiques basées sur le bon sens.

Pour que les modèles puissent analyser et comprendre des environnements complexes, y compris les espaces industriels et les laboratoires, ils doivent commencer de manière modeste. Par exemple, dans le test décrit ci-dessous, le modèle Cosmos Reason est chargé de répondre à une question à choix multiples sur le mouvement relatif dans la vidéo.

Exemple d’un jeu de données d’évaluation de Cosmos Reason

À quoi consiste le raisonnement pour un modèle d’IA ? 

Pour développer leurs capacités de raisonnement, les modèles de NVIDIA font l’objet d’un entraînement basé sur le bon sens physique dans le monde réel via l’apprentissage par renforcement.

Par exemple, les robots ne savent pas intuitivement quel chemin est à gauche, à droite, vers le haut ou vers le bas. Ils apprennent ces limites spatiotemporelles par le biais d’un processus d’entraînement. Les robots alimentés par l’IA utilisés à des fins de sécurité, tels que les tests de collision entre véhicules, doivent apprendre à analyser et à interpréter la façon dont les formes physiques interagissent avec leur environnement.

Sans intégrer le bon sens dans le processus d’entraînement de ces robots, des problèmes sont susceptibles de survenir lors du déploiement.

« Sans connaissances de base sur le monde physique, un robot peut tomber au sol ou casser accidentellement quelque chose, ce qui peut mettre en danger les personnes et l’environnement, » explique Yin Cui, chercheur au sein de l’équipe Cosmos Reason de NVIDIA.

NVIDIA conçoit la prochaine génération des modèles d’IA en transposant le bon sens humain sur le monde physique au sein des différents modèles.

C’est dans ce contexte qu’intervient l’équipe Data Factory de NVIDIA, qui englobe un groupe d’analystes internationaux issus de divers horizons, notamment la bioingénierie, le commerce et la linguistique. Ces spécialistes œuvrent à développer, analyser et compiler des centaines de milliers d’unités de données qui seront utilisées pour former des modèles d’IA générative sur la meilleure façon de raisonner.

Processus de curation des données

L’un des projets de l’équipe Data Factory de NVIDIA est axé sur le développement de modèles de fondation pour les applications d’IA physique. Ces environnements virtuels visent à créer et enrichir des réseaux de neurones de Deep Learning à la fois plus sûrs et plus efficaces pour l’entraînement des modèles de raisonnement reposant sur des domaines simulés.

Tout commence par un groupe d’annotation de NVIDIA qui crée des couples de questions et réponses basés sur des données vidéo. Ces vidéos sont issues du monde réel et peuvent inclure tout type de séquences, qu’elles représentent des poulets qui se promènent dans leur grange ou des voitures qui roulent sur une route rurale.

Par exemple, un annotateur pourrait demander à propos de la vidéo ci-dessous : « Quelle main cette personne utilise-t-elle pour couper les spaghettis ? »

Exemple d’un jeu de données d’évaluation avec Cosmos Reason

Les annotateurs proposent alors quatre réponses à choix multiples étiquetées A, B, C et D. Le modèle reçoit ensuite les données et doit raisonner de manière à choisir la bonne réponse.

« Nous devons proposer une philosophie de test à notre modèle, » explique Yin Cui. « Toutes nos questions sont à choix multiples, à la manière de ce à quoi des élèves ont affaire lors d’un examen scolaire. »

Ces paires de questions-réponses sont ensuite contrôlées par des analystes de NVIDIA, comme Michelle Li.

Michelle Li est titulaire d’une formation en santé publique et en analyse de données, ce qui lui permet de se pencher sur l’objectif plus large des données qu’elle analyse.

« Pour l’IA physique, nous avons un objectif précis : entraîner des modèles pour leur permettre de comprendre le monde physique, ce qui m’aide à penser de manière globale lorsque je regarde les paires de questions et réponses et les différentes questions qui sont présentées, » déclare-t-elle. « Je me demande par exemple si les paires de questions et réponses que j’examine correspondent à nos objectifs pour les lignes directrices que nous avons pour chaque projet. »

Après cela, les données sont examinées par les responsables de l’usine de données du projet, afin de vérifier qu’elles sont conformes aux normes de qualité et prêtes à être envoyées à l’équipe de recherche de Cosmos Reason. Les scientifiques alimentent ensuite le modèle avec les centaines de milliers d’unités de données (dans ce cas, les paires de questions et réponses) et l’entraînent par le biais d’un processus d’apprentissage par renforcement sur les limites et les limitations du monde physique.

À quoi sert le raisonnement de l’IA ? 

Les modèles de raisonnement sont exceptionnels car ils peuvent contribuer à donner un sens à leur espace temporel ainsi que prédire les résultats associés. Ils peuvent analyser une situation, proposer un modèle de raisonnement sur les résultats hypothétiques et déduire le scénario le plus probable.

En d’autres termes, le raisonnement de l’IA adopte un schéma de pensée humaine. L’IA détaille le travail qu’elle fournit et donne à l’utilisateur un aperçu de la logique derrière ses réponses.

Les utilisateurs peuvent par exemple demander à ce nouveau type de modèles d’analyser une vidéo telle que celle de deux voitures circulant sur une route. Lorsqu’on pose à l’un de ces modèles une question du genre « Que se passerait-il si les voitures roulaient l’une vers l’autre sur la même voie ? », le modèle peut raisonner et déterminer le résultat le plus probable à partir du scénario proposé ; par exemple, un accident de voiture.

« Nous développons un modèle de raisonnement pionnier axé sur l’IA physique, » a déclaré Tsung-Yi Lin, chercheur principal de l’équipe Cosmos Reason de NVIDIA.

La capacité de l’équipe de l’usine de données à produire des données de haute qualité sera cruciale pour le développement d’agents autonomes intelligents et de systèmes d’IA physique à même d’interagir en toute sécurité avec le monde réel, alors que les modèles de raisonnement conçus par NVIDIA deviennent de plus en plus innovants.

Testez NVDIA Cosmos-Reason1 ou téléchargez le modèle sur Hugging Face et GitHub.