Le plus grand zoo numérique : un modèle biologique formé sur les GPU NVIDIA identifie plus d’un million d’espèces

by NVIDIA Writers

Le premier projet de biologie computationnelle de Tanya Berger-Wolf a commencé par un pari avec une collègue, qui lui a lancé le défi de construire un modèle d’IA capable d’identifier des zèbres individuels plus rapidement qu’un zoologiste.

Elle a gagné.

Désormais directrice de l’Institut d’analyse des données translationnelles et professeure à l’Université d’État de l’Ohio, Mme Berger-Wolf s’attaque à l’ensemble du règne animal avec BioCLIP 2, un modèle de fondation basé sur la biologie et entraîné sur le jeu de données d’organismes le plus important et le plus diversifié à ce jour. Ce modèle sera présenté cette année à la conférence sur la recherche NeurIPS sur l’IA.

BioCLIP 2 va au-delà de l’extraction d’informations à partir d’images. Ce modèle peut distinguer les traits des espèces et déterminer les relations inter et intra-espèces. Par exemple, le modèle a classé les pinsons de Darwin par taille de bec, sans enseigner le concept de taille, comme l’illustre l’image ci-dessous.

Le diagramme de dispersion montre comment BioCLIP 2 organise les pinsons de Darwin par taille de bec de gauche à droite.

Ces capacités permettront aux chercheurs d’utiliser ce modèle à la fois comme une encyclopédie biologique, une puissante plateforme scientifique et un outil de recherche interactif doté de capacités d’inférence pour aider à résoudre un problème récurrent en biologie de la conservation, à savoir le manque de données pour certaines espèces.

« Nous ne disposons pas de données suffisantes pour déterminer la taille de la population d’espèces emblématiques telles que les orques, et la population d’ours polaires est inconnue », explique Mme Berger-Wolf. « Si nous ne disposons pas de données pour ces espèces, quel espoir reste-t-il pour les coléoptères et les champignons ? »

Les modèles d’IA peuvent améliorer les efforts de conservation existants pour les espèces menacées et leurs habitats en comblant ce manque de données.

BioCLIP 2 est disponible sous licence open-source sur Hugging Face, où il a été téléchargé plus de 45 000 fois le mois dernier. Cet article s’appuie sur le premier modèle BioCLIP, sorti il y a plus d’un an, qui a également été entraîné sur les GPU NVIDIA et a reçu le prix dedu meilleur article étudiant lors de la conférence Computer Vision and Pattern Recognition (CVPR).

L’article BioCLIP 2 sera présenté à la conférence NeurIPS, qui aura lieu du 30 novembre au 5 décembre à Mexico et du 2 au 7 décembre à San Diego.

Créer le plus grand jeu de cartes flash biologiques au monde

Le projet a débuté par la compilation d’un dataset massif, TREEOFLIFE-200M, qui comprend 214 millions d’images d’organismes couvrant plus de 925 000 classes taxonomiques, des singes aux vers de farine en passant par les magnolias.

Pour gérer cette énorme quantité de données, l’équipe de Berger-Wolf de l’Institut Imageomics a collaboré avec la Smithsonian Institution, des experts de diverses universités et d’autres organisations spécialisées dans ce domaine.

Ces chercheurs ont voulu découvrir ce qui arriverait s’ils entraînaient un modèle biologique sur une quantité de données plus importante que jamais.

L’équipe voulait voir s’il était possible de passer « de la science des organismes individuels vers la science des écosystèmes », affirme Mme Berger-Wolf.

Après 10 jours d’entraînement sur 32 GPU NVIDIA H100, BioCLIP 2 a affiché de nouvelles capacités, telles que la distinction entre adultes et jeunes, ainsi qu’entre mâles et femelles au sein d’une espèce, sans qu’on lui ait explicitement enseigné ces concepts.

Elle a également permis d’établir des associations entre des espèces apparentées, par exemple pour comprendre les liens entre les zèbres et les autres équidés.

« Ce modèle apprend qu’à chaque niveau de la taxonomie, toutes les images de zèbres ont une étiquette de genre particulière et que les images d’équidés (y compris les zèbres, les chevaux et les ânes) ont un trait caractéristique particulier, et ainsi de suite », poursuit-elle. « Il apprend la hiérarchie de lui-même, simplement grâce à ces associations. »

Le modèle peut même déterminer la santé d’un organisme sur la base des données d’entraînement. Par exemple, il a séparé les feuilles de pomme ou de myrtille saines des feuilles malades, et a pu reconnaître différents types de maladies lors de la génération du graphique de dispersion ci-dessous.

Les graphiques de dispersion montrent les espèces végétales de mieux en mieux séparées à mesure que le modèle est entraîné. Les variations intra-espèces forment également des grappes, ce qui les rend plus faciles à séparer.

L’équipe de Mme Berger-Wolf a utilisé un cluster de 64 GPU NVIDIA Tensor Core pour accélérer l’entraînement des modèles, ainsi que des GPU Tensor Core individuels pour l’inférence.
« Des modèles de fondation comme BioCLIP ne seraient pas possibles sans le calcul accéléré de NVIDIA », déclare Mme Berger-Wolf.

Jumeaux numériques de la faune : l’avenir de l’étude des relations avec les écosystèmes

La prochaine tâche des chercheurs consiste à développer un jumeau numérique interactif basé sur la faune sauvage qui puisse être utilisé pour visualiser et simuler les interactions écologiques entre les espèces ainsi que leur façon d’interagir avec l’environnement.

L’objectif est de fournir une méthode sûre et facile d’étudier les relations entre les organismes qui se produisent naturellement dans la nature, tout en minimisant l’impact et les perturbations sur les écosystèmes.

« Le jumeau numérique nous permet de visualiser les interactions entre les espèces et de les mettre en contexte, ainsi que de simuler des scénarios hypothétiques et de tester nos modèles sans détruire l’environnement réel, ce qui permet de réduire au maximum l’empreinte », explique Mme Berger-Wolf.

Le jumeau numérique donnera aux scientifiques la possibilité d’explorer les points de vue des espèces qu’ils étudient dans l’environnement simulé, ouvrant ainsi des possibilités infinies pour des recherches écologiques plus complexes et plus précises.

À terme, des versions de cette technologie pourraient même être déployées pour une utilisation publique, par exemple via des plateformes interactives dans des zoos. Le public pourra explorer, visualiser et en apprendre davantage sur l’environnement naturel et ses nombreuses espèces sous des angles entièrement nouveaux.

« J’ai la chair de poule rien qu’à l’idée d’imaginer un scénario où enfant arrive au zoo et se dit : Waouh ! Voilà ce que je verrais si j’étais un autre membre du troupeau ou si j’étais la petite araignée assise sur ce griffoir », se réjouit Mme Berger-Wolf.

En savoir plus sur BioCLIP 2.