Comment l’économie de l’inférence peut maximiser la valeur de l’IA

Comprendre le coût de l'IA en production peut aider les utilisateurs à atteindre des performances et une rentabilité élevées.
by Kyle Aubrey

À mesure que les modèles d’IA évoluent et que leur adoption se développe, les entreprises doivent procéder à un équilibre délicat pour générer une valeur maximale.

En effet, l’inférence, c’est-à-dire le processus d’exécution de données à travers un modèle pour obtenir une sortie, pose un défi de calcul différent de celui de l’entraînement d’un modèle.

Le pré-entraînement d’un modèle, c’est-à-dire le processus consistant à ingérer des données, à les décomposer en jetons et à trouver des schémas, représente essentiellement un coût ponctuel. Mais dans l’inférence, chaque invite adressée à un modèle génère des jetons, chacun d’eux engendrant un coût.

Cela signifie que plus les performances et l’utilisation du modèle d’IA augmentent, plus la quantité de jetons générés et les coûts de calcul associés augmentent. La clé pour les entreprises qui cherchent à développer des capacités d’IA consiste à générer autant de jetons que possible, avec une vitesse, une précision et une qualité de service maximales, sans faire exploser les coûts de calcul.

L’écosystème d’IA s’efforce donc de rendre l’inférence moins coûteuse et plus efficace. Les coûts d’inférence ont eu tendance à baisser au cours de l’année écoulée grâce à des avancées majeures dans l’optimisation des modèles, permettant de créer des infrastructures de calcul accéléré et des solutions complètes à faible consommation d’énergie.

Selon le 2025 AI Index Report de l’Institut d’IA centrée sur l’humain de l’Université de Stanford, « le coût d’inférence d’un système performant au niveau de GPT-3.5 a été divisé par plus de 280 entre novembre 2022 et octobre 2024. Quant au matériel, les coûts ont diminué de 30 % par an, tandis que l’efficacité énergétique s’est améliorée de 40 % chaque année. Les modèles « open-weight » comblent également l’écart avec les modèles fermés, ce qui réduit l’écart de performances de 8 % à seulement 1,7 % sur certains benchmarks en une seule année. Ensemble, ces tendances amoindrissent rapidement les obstacles à l’IA avancée. »

À mesure que les modèles évoluent et génèrent plus de demande et de jetons, les entreprises doivent faire évoluer leurs ressources de calcul accéléré pour offrir la nouvelle génération d’outils d’IA de raisonnement, sous peine de risquer d’augmenter les coûts et la consommation d’énergie.

S’ensuit une introduction pour comprendre les concepts d’économie de l’inférence et permettre aux entreprises de se positionner pour mettre en œuvre des solutions d’IA efficaces, rentables et à grande échelle.

Terminologie clé de l’économie de l’inférence IA

Connaître les termes clés de l’économie de l’inférence permet de jeter les bases pour comprendre son importance.

Les jetons sont l’unité fondamentale de données dans un modèle d’IA. Ils sont dérivés de données pendant l’entraînement sous forme de texte, d’images, de clips audio et de vidéos. Grâce à un processus appelé tokenisation, chaque donnée est décomposée en unités plus petites. Pendant l’entraînement, le modèle apprend les relations entre les jetons afin de pouvoir effectuer une inférence et générer des résultats précis et pertinents.

Le débit fait référence à la quantité de données, généralement mesurée en jetons, que le modèle peut produire pendant un laps de temps donné. Cette quantité dépend elle-même de l’infrastructure qui exécute le modèle. Le débit est souvent mesuré en jetons par seconde, un débit plus élevé étant synonyme d’un meilleur retour sur l’infrastructure.

La latence est une mesure du temps entre l’envoi d’une invite et le début de la réponse du modèle. Une latence plus faible signifie des réponses plus rapides. Les deux principales façons de mesurer la latence sont :

  • Délai avant le premier jeton : mesure du temps de traitement initial nécessaire au modèle pour générer son premier jeton de sortie à la demande de l’utilisateur.
  • Temps par jeton de sortie : temps moyen entre deux jetons consécutifs, c’est-à-dire le temps nécessaire pour générer un jeton de complétion pour chaque utilisateur interrogeant le modèle simultanément. On l’appelle également « latence inter-jetons » ou latence de jeton à jeton.

Le délai avant la création du premier jeton et le temps par jeton de sortie sont des benchmarks utiles, mais ce ne sont que deux éléments d’une équation plus vaste. Se concentrer uniquement sur ces aspects peut encore entraîner une détérioration des performances ou des coûts.

Pour prendre en compte d’autres interdépendances, les responsables informatiques commencent à mesurer le « goodput  », c’est-à-dire le débit atteint par un système tout en maintenant le délai-cible avant la création du premier jeton et le temps par jeton de sortie. Cette mesure permet aux entreprises d’évaluer les performances de manière plus holistique, en garantissant l’alignement du débit, de la latence et du coût pour soutenir à la fois l’efficacité opérationnelle et une expérience utilisateur exceptionnelle.

L’efficacité énergétique mesure l’efficacité d’un système d’IA pour convertir l’énergie en sortie de calcul, exprimée en performances par watt. Grâce aux plateformes de calcul accéléré, les entreprises peuvent maximiser le nombre de jetons par watt tout en minimisant la consommation d’énergie.

Comment les lois d’échelle s’appliquent au coût d’inférence

Les trois lois d’échelle de l’IA sont également fondamentales pour comprendre l’économie de l’inférence :

  • Mise à l’échelle du pré-entraînement : loi de mise à l’échelle originale qui a démontré qu’en augmentant la taille du jeu de données, le nombre de paramètres du modèle et les ressources de calcul pour l’entraînement, les modèles peuvent améliorer de manière prévisible leur intelligence et leur précision.
  • Post-entraînement : processus par lequel les modèles sont affinés pour assurer précision et spécificité afin de pouvoir être appliqués au développement d’applications. Des techniques telles que la génération augmentée par récupération peuvent être utilisées pour générer des réponses plus pertinentes à partir d’une base de données d’entreprise.
  • Mise à l’échelle du temps de test (également connue sous le nom de « réflexion longue » ou de « raisonnement ») : technique par laquelle les modèles allouent des ressources de calcul supplémentaires pendant l’inférence pour évaluer plusieurs résultats possibles avant de trouver la meilleure réponse.

Si l’IA évolue et que les techniques de post-entraînement et de mise à l’échelle du temps de test deviennent de plus en plus sophistiquées, le pré-entraînement ne va pas disparaître et reste un moyen important de faire évoluer les modèles. Le pré-entraînement sera toujours nécessaire pour soutenir le post-entraînement et la mise à l’échelle du temps de test.

L’IA rentable repose sur une approche full-stack

Contrairement à l’inférence d’un modèle qui n’a subi que des opérations de pré-entraînement et de post-entraînement, les modèles qui exploitent la mise à l’échelle du temps de test génèrent plusieurs jetons pour résoudre un problème complexe. Les résultats du modèle sont ainsi plus précis et plus pertinents, mais ils sont également beaucoup plus coûteux en calcul.

Une IA plus intelligente génére plus de jetons pour résoudre un problème. Pour une expérience utilisateur de qualité, ces jetons doivent être générés le plus rapidement possible. Plus un modèle d’IA est intelligent et rapide, plus il est utile aux entreprises et aux clients.

Les entreprises doivent mettre à l’échelle leurs ressources de calcul accéléré pour bénéficier de la nouvelle génération d’outils de raisonnement basés sur l’IA capables de prendre en charge la résolution de problèmes complexes, le codage et la planification en plusieurs étapes sans faire exploser les coûts.

Cela nécessite à la fois un matériel avancé et une pile logicielle entièrement optimisée. La feuille de route des produits d’usine NVIDIA AI est conçue pour répondre aux besoins en ressources de calcul et aider à résoudre la complexité de l’inférence, tout en améliorant l’efficacité.

Les usines d’IA intègrent une infrastructure d’IA hautes performances, une mise en réseau haute vitesse et des logiciels optimisés pour produire de l’intelligence à grande échelle. Ces composants sont conçus pour être flexibles et programmables, permettant aux entreprises de hiérarchiser les domaines les plus critiques pour leurs modèles ou leurs besoins d’inférence.

Pour aller plus loin dans la rationalisation des opérations lors du déploiement de modèles de raisonnement d’IA massifs, les usines d’IA fonctionnent avec un système de gestion d’inférence hautes performances et à faible latence garantissant la vitesse et le débit nécessaires au raisonnement de l’IA à moindre coût, afin de maximiser la génération de revenus par jetons.

Pour en savoir plus, consultez l’e-book « L’inférence de l’IA : équilibrer les coûts, la latence et les performances. »