Exploration du potentiel de génération de revenus des usines d’IA

Le time to first value est l’une des mesures les plus importantes dans le développement de l’IA.
by Kyle Aubrey

L’IA crée de la valeur ajoutée pour tous les professionnels, des chercheurs en recherche pharmaceutique aux analystes quantitatifs sur des marchés financiers en mouvement perpétuel.

Plus un système d’IA peut produire rapidement des jetons, une unité de données utilisée pour regrouper des données de sortie, plus il est impactant. Les usines d’IA jouent donc un rôle-clé puisqu’elles fournissent le traitement le plus efficace entre le « délai d’accès au premier jeton » et le  » délai d’accès à la première valeur ».

Les usines d’IA redéfinissent la rentabilité des infrastructures modernes. Elles produisent de l’intelligence en transformant à grande échelle des données en résultats à haute valeur ajoutée, qu’il s’agisse de jetons, de prévisions, d’images, de protéines ou d’autres formes.

Elles contribuent à optimiser trois aspects-clés du processus d’IA : l’ingestion de données, l’entraînement des modèles et l’inférence. Les usines d’IA sont conçues pour générer des jetons avec davantage de rapidité et de précision, en utilisant trois piles technologiques critiques : des modèles d’IA, une infrastructure de calcul accéléré et des logiciels d’entreprise.

Lisez la suite pour découvrir comment les usines d’IA aident des entreprises du monde entier à convertir le produit numérique à la plus haute valeur ajoutée – les données – en revenus potentiels.

De l’économie de l’inférence à la création de valeur ajoutée

Avant de mettre en œuvre votre propre usine d’IA, il est important de comprendre les aspects économiques de l’inférence, qui incluent l’équilibre des coûts et l’efficacité énergétique, tout en répondant aux demandes croissantes en matière d’IA.

Le rendement désigne le volume de jetons qu’un modèle peut produire. La latence désigne le nombre de jetons que le modèle peut générer au cours d’une période donnée, généralement exprimée en délai d’accès au premier jeton, c’est-à-dire le temps écoulé jusqu’à l’apparition du premier résultat, et en délai par jeton de sortie, qui désigne la vitesse de sortie de chaque nouveau jeton. Le débit utile est une nouvelle métrique qui mesure la puissance de sortie utile d’un système tout en atteignant ses objectifs-clés en matière de latence.

Si l’expérience utilisateur est essentielle pour toute application logicielle, c’est aussi le cas pour les usines d’IA. Qui dit rendement élevé dit IA plus performante, tandis qu’une latence réduite garantit des réponses plus rapides. Lorsque ces deux mesures sont correctement équilibrées, les usines d’IA peuvent proposer des expériences utilisateur attrayantes en fournissant rapidement des résultats utiles.

Par exemple, un agent du service client basé sur l’IA qui répond en moins d’une demi-seconde sera toujours bien plus attrayant et efficace que celui qui prend cinq secondes pour répondre, même si les deux agents génèrent au final le même nombre de jetons dans leur réponse.

Les entreprises peuvent ainsi profiter de cette opportunité pour appliquer des prix compétitifs à leurs résultats d’inférence, ce qui leur permet d’accroître leur revenu potentiel par jeton.

Il peut s’avérer difficile de mesurer et de visualiser cet équilibre, et c’est là que le concept de frontière de Pareto entre en jeu.

Résultats de l’usine d’IA : l’efficacité des jetons à valeur ajoutée

La frontière de Pareto, représentée dans la figure ci-dessous, permet de visualiser les meilleures façons d’équilibrer les compromis entre plusieurs objectifs concurrents (comme répondre plus rapidement ou servir plus d’utilisateurs simultanément) lors du déploiement de l’IA à l’échelle.

L’axe vertical représente l’efficacité, mesurée en jetons par seconde (TPS), pour une quantité donnée d’énergie utilisée. Plus cette valeur est élevée, plus l’usine d’IA peut traiter de requêtes de manière simultanée.

L’axe horizontal représente le nombre de TPS pour un utilisateur unique, c’est-à-dire le temps nécessaire à un modèle pour apporter la première réponse à la question d’un utilisateur. Plus cette valeur est élevée, meilleure est l’expérience utilisateur attendue. Une latence plus faible et des délais de réponse plus rapides sont généralement recommandés pour les applications interactives comme les agents conversationnels ou les outils d’analyse en temps réel.

La valeur maximale de la frontière de Pareto, qui correspond au sommet de la courbe, représente le meilleur rendement pour des ensembles de configurations d’exploitation donnés. L’objectif est de trouver l’équilibre optimal entre le rendement et l’expérience utilisateur pour différentes charges de travail et applications d’IA.

Les meilleures usines d’IA ont recours au calcul accéléré pour augmenter le nombre de jetons par watt afin d’optimiser les performances de l’IA tout en renforçant significativement l’efficacité énergétique des applications et des usines d’IA.

L’animation ci-dessus compare l’expérience utilisateur avec, d’une part, des GPU NVIDIA H100 configurés pour 32 jetons par seconde et par utilisateur et, d’autre part, un GPU NVIDIA B300 avec une configuration à 344 jetons par seconde et par utilisateur. Dans ces conditions d’expérience utilisateur, Blackwell Ultra offre une expérience 10 fois meilleure pour un rendement près de 5 fois plus élevé, soit un potentiel de revenus jusqu’à 50 fois supérieur.

Le fonctionnement d’une usine d’IA en pratique

Une usine d’IA est un système de composants qui s’assemblent pour transformer des données brutes en intelligence. Il ne s’agit pas nécessairement d’un Data Center haut de gamme sur site, puisque l’usine d’IA peut aussi se présenter sous la forme d’un modèle hybride ou Cloud dédié à l’IA et s’exécutant sur une infrastructure de calcul accéléré par GPU. Elle peut également prendre la forme d’une infrastructure de télécommunications à même d’optimiser le réseau et de réaliser des opérations d’inférence à l’Edge.

Toute infrastructure de calcul accéléré dédiée et associée à un environnement logiciel transformant des données en intelligence artificielle grâce à l’IA constitue, en pratique, une usine d’IA.

Ces composants incluent des technologies de calcul accéléré, des systèmes de mise en réseau, des logiciels, du stockage et des systèmes, ainsi que des outils et des services.

Lorsqu’une personne interroge un système d’IA, l’ensemble de la pile logicielle de l’usine à IA se met en marche. L’usine procède à la tokenisation de la requête en transformant les données en petites unités de sens, comme des fragments d’images, de sons ou de mots.

Chaque jeton est soumis à un modèle d’IA accéléré par GPU, qui procède à un raisonnement de calcul intensif sur ledit modèle d’IA afin de générer la meilleure réponse possible. Grâce à un système de mise en réseau et d’interconnexion à haute vitesse, chaque GPU exécute un traitement parallèle pour traiter les données simultanément.

Une usine d’IA peut exécuter ce processus selon les différentes requêtes des utilisateurs dans le monde entier. Ces techniques d’inférence en temps réel produisent des données exploitables à l’échelle industrielle.

Dans la mesure où les usines d’IA unifient le cycle de vie complet de l’IA, ce système est continuellement amélioré : l’inférence est consignée, les cas limites sont signalés en vue de procéder à un réentraînement et les cycles d’optimisation se complexifient avec le temps, le tout sans aucune intervention manuelle. C’est un bel exemple de débit utile en action.

Leader mondial des technologies de sécurité, Lockheed Martin a créé sa propre usine d’IA afin de prendre en charge des utilisations diverses dans l’ensemble de ses activités. Grâce au Lockheed Martin AI Center, l’entreprise a pu centraliser ses charges de travail d’IA générative sur NVIDIA DGX SuperPOD pour entraîner et personnaliser ses modèles d’IA, exploiter toute la puissance d’une infrastructure spécialisée et réduire les coûts des environnements Cloud.

« Grâce à notre usine d’IA sur site, nous gérons la tokenisation, l’entraînement et le déploiement en interne, » explique Greg Forrest, directeur des IA foundations chez Lockheed Martin. « DGX SuperPOD nous aide à traiter plus d’un milliard de jetons par semaine, ce qui nous permet de procéder à des opérations d’affinage, de génération augmentée par récupération ou d’inférence sur nos grands modèles de langage. Cette solution nous évite une augmentation des coûts et permet une limitation significative des frais basés sur l’utilisation des jetons. »

Pile intégrale de technologies NVIDIA pour l’IA

Une usine d’IA transforme l’IA issue d’une série d’expériences isolées en moteur évolutif, reproductible et fiable au service de l’innovation et de la création de valeur ajoutée.

NVIDIA fournit l’ensemble des composants requis pour mettre en œuvre de nouvelles usines d’IA, y compris des solutions de calcul accéléré, des GPU à hautes performances, des solutions réseau à haut débit et des solutions logicielles spécialement optimisées.

Par exemple, les GPU NVIDIA Blackwell peuvent être connectés via un système de mise en réseau, équipés d’un système de refroidissement liquide à haute efficacité énergétique et orchestrés via des logiciels d’IA.

La plateforme d’inférence open-source NVIDIA Dynamo propose un système d’exploitation pour les usines d’IA. Elle est conçue pour accélérer et faire évoluer les solutions d’IA avec une efficacité maximale pour un coût minime. En acheminant, planifiant et optimisant intelligemment les requêtes d’inférence, Dynamo s’assure que chaque cycle du GPU garantit une utilisation optimale, ce qui améliore la production de jetons grâce à des performances de pointe.

Les systèmesNVIDIA Blackwell GB200 NVL72 et la mise en réseau NVIDIA InfiniBand ont été conçus pour maximiser le rendement des jetons par watt, ce qui rend les usines d’IA extrêmement efficaces, que ce soit pour assurer un rendement total élevé ou une latence réduite.

En validant des solutions complètes intégralement optimisées, les entreprises peuvent concevoir et gérer plus efficacement des systèmes d’IA de pointe. Une usine d’IA intégrale aide les entreprises à atteindre l’excellence opérationnelle, ce qui leur permet d’exploiter le plein potentiel de l’IA plus rapidement et en toute confiance.

Découvrez comment les usines d’IA redéfinissent les Data Centers pour entrer dans la nouvelle ère de l’IA.