Les agents d’apprentissage par renforcement, c’est-à-dire les systèmes d’IA entraînés par essais et erreurs, sont capables de convertir le calcul en nouvelles connaissances.
C’est sur cette base que s’articule une nouvelle collaboration d’ingénierie entre NVIDIA et Ineffable Intelligence, le laboratoire d’IA basé à Londres et fondé par l’architecte d’AlphaGo David Silver, après la sortie officielle d’Ineffable la semaine dernière.
« Le prochain objectif de l’IA, ce sont les superapprenants, des systèmes qui apprennent en permanence grâce à l’expérience », déclare Jensen Huang, fondateur et PDG de NVIDIA. « Nous sommes ravis de nous associer à Ineffable Intelligence pour co-concevoir l’infrastructure d’un apprentissage par renforcement à grande échelle, à mesure que cette entreprise repousse les limites de l’IA et ouvre la voie à une nouvelle génération de systèmes intelligents. »
Silver est l’un des pionniers de l’apprentissage par renforcement, une approche qui a transformé la recherche en IA. Il s’est concentré sur le développement de cette approche pour en faire un nouveau paradigme.
« Les chercheurs ont largement résolu la problématique la plus simple concernant l’IA : créer des systèmes sachant tout ce que les humains savent déjà », a déclaré Silver. « Mais nous devons désormais résoudre le problème le plus complexe en matière d’IA : comment créer des systèmes capables de découvrir de nouvelles connaissances par eux-mêmes. » Cela requiert une approche très différente, des systèmes qui apprennent grâce à l’expérience. »
Ce type d’apprentissage nécessite un pipeline puissant et hautement optimisé pour le soutenir. Contrairement au pré-entraînement, où un jeu fixe de données humaines circule dans le système, les charges de travail d’apprentissage par renforcement génèrent leurs données à la volée.
Le système doit agir, observer, noter et mettre à jour en continu dans des boucles serrées, mettant sous pression l’interconnexion, la bande passante mémoire et la capacité de service, ce qui n’est pas le cas avec le pré-entraînement. En outre, le système s’entraînera avec des formes d’expérience riches tout à fait distinctes du langage humain et d’autres données humaines, et pouvant nécessiter de nouvelles architectures de modèles et de nouveaux algorithmes d’entraînement.
Voilà sur quoi NVIDIA et Ineffable concentrent leur travail technique : la création d’un pipeline capable d’alimenter des systèmes d’apprentissage par renforcement à grande échelle. Les ingénieurs des deux sociétés se sont associés pour étudier la meilleure façon de créer ce pipeline d’entraînement.
Ce travail a commencé sur NVIDIA Grace Blackwell et sera l’un des premiers à explorer la future plateforme NVIDIA Vera Rubin. L’objectif est de comprendre la prochaine génération de matériel et de logiciels qui sera nécessaire à mesure que le monde de l’IA évoluera au-delà des données humaines vers des modèles qui apprennent par la simulation et l’expérience.
Une infrastructure adaptée permettra de débloquer une échelle sans précédent d’apprentissage par renforcement dans des environnements très complexes et riches, permettant aux agents d’effectuer des percées dans tous les domaines de connaissance.
