En bref : L’entraînement de GPT-4 aurait coûté entre 78 et 100 millions de dollars ou plus en calcul seul. Gemini Ultra de Google a probablement dépassé ce chiffre. La prochaine génération de modèles de pointe — entraînés sur des clusters de 100 000 GPU ou plus — pourrait franchir le seuil du milliard de dollars. La mise à l’échelle du calcul’IA suit des lois mathématiques qui rendent chaque génération exponentiellement plus coûteuse, concentrant le développement de l’IA de pointe parmi moins de dix organisations dans le monde. Cet article explique les lois d’échelle, les aspects économiques et pourquoi la courbe des coûts pousse l’industrie à repenser la manière dont les modèles sont construits.
En 2020, OpenAI a dépensé un montant estimé entre 4 et 5 millions de dollars pour entraîner GPT-3, selon l’analyse de Stanford HAI — un modèle de 175 milliards de paramètres qui a nécessité environ 3 640 pétaflop-jours de calcul. Quatre ans plus tard, le coût d’entraînement de GPT-4 était estimé entre 78 et 100 millions de dollars — Sam Altman lui-même l’a décrit comme « plus de 100 millions de dollars ». En 2025, des estimations crédibles plaçaient le budget de calcul pour les modèles de pointe d’Anthropic, Google et OpenAI entre 300 et 500 millions de dollars par session d’entraînement. La course aux infrastructures IA ne consiste pas seulement à construire des centres de données. Il s’agit de savoir si le coût exponentiel de l’entraînement finira par fléchir.
Les mathématiques derrière cette escalade ne sont pas spéculatives. Elles sont gouvernées par des lois d’échelle — des relations empiriques entre la taille du modèle, le volume de données, le budget de calcul et les performances — qui se sont maintenues remarquablement stables sur cinq ordres de grandeur. Comprendre ces lois, c’est comprendre pourquoi la mise à l’échelle du calcul’IA est devenue la contrainte économique centrale de tout le domaine.
Les lois d’échelle expliquées
En janvier 2020, des chercheurs d’OpenAI — Jared Kaplan, Sam McCandlish et leurs collègues — ont publié un article qui a changé la façon dont l’industrie pense le développement de modèles. Ils ont démontré que les performances des modèles de langage s’améliorent de manière prévisible selon une loi de puissance en fonction de trois variables : le nombre de paramètres (N), la taille du jeu de données d’entraînement (D) et la quantité de calcul (C) utilisée pour l’entraînement.
La découverte cruciale était que les gains de performance étaient lisses et prévisibles. Doublez le calcul, et vous obtenez une amélioration approximativement constante de la perte. Il n’y avait ni discontinuités, ni plateaux — juste une relation implacable et quantifiable entre les ressources et les capacités. Cela signifiait que les performances d’un modèle pouvaient être prévues avec une précision surprenante avant même qu’un seul GPU ne soit alloué.
En 2022, l’article Chinchilla de DeepMind a affiné ces lois. Les travaux originaux de Kaplan suggéraient que l’augmentation des paramètres du modèle était plus efficace que l’augmentation des données. Chinchilla a montré l’inverse : la stratégie optimale consistait à augmenter les paramètres et les données de manière approximativement égale. Un modèle de 70 milliards de paramètres entraîné sur 1 400 milliards de tokens surpassait un modèle de 280 milliards de paramètres entraîné sur moins de tokens pour le même budget de calcul.
L’implication pratique était énorme. L’industrie avait construit des modèles trop grands et les avait entraînés sur trop peu de données. Chinchilla n’a pas changé la trajectoire fondamentale des coûts — il a corrigé la recette. Mais la facture a continué de croître.
La courbe des coûts
Le calcul nécessaire pour entraîner des modèles IA de pointe double environ tous les six mois depuis 2010, selon l’analyse d’Epoch AI. C’est une courbe bien plus raide que la loi de Moore, qui décrit un doublement de la densité de transistors environ tous les deux ans.
Pour apprécier l’échelle : GPT-3 en 2020 nécessitait environ 3,14 x 10^23 opérations en virgule flottante. GPT-4 en 2023 en nécessitait environ 2,15 x 10^25 — près de 70 fois plus. Chaque génération repousse les limites dans un territoire où même les clusters GPU hyperscale peinent à suivre.
Les améliorations matérielles compensent partiellement cette croissance. Le GPU H100 de NVIDIA délivre environ trois fois le débit d’entraînement IA de son prédécesseur, l’A100. Le B200 double encore ce chiffre. Mais ces gains arrivent sur une cadence d’environ deux ans, tandis que la demande de calcul double tous les six mois. L’écart est structurel, et il s’élargit.
Le coût ne se limite pas aux GPU. Une seule session d’entraînement de pointe nécessite des pipelines massifs de préparation de données (des pétaoctets de texte, code et données multimodales sélectionnés), des systèmes de stockage distribué, des réseaux à haute bande passante pour synchroniser les gradients à travers des milliers de GPU, et des équipes d’ingénieurs capables de déboguer des pannes dans des clusters où n’importe lequel des 100 000 composants peut tomber en panne à tout moment.
Anatomie d’une session d’entraînement
Considérons ce à quoi ressemble une session d’entraînement à 200 millions de dollars. Un modèle de pointe hypothétique en 2026 pourrait s’entraîner sur un cluster de 32 000 GPU NVIDIA B200, connectés via NVLink au sein des nœuds et InfiniBand entre eux, hébergés dans un centre de données IA dédié consommant 150 mégawatts.
La session d’entraînement pourrait durer trois à quatre mois. Durant cette période, le cluster fonctionne 24 heures sur 24, 7 jours sur 7. Des points de contrôle — des instantanés complets des poids du modèle — sont sauvegardés toutes les quelques heures vers un stockage distribué, consommant des pétaoctets d’espace disque. Si une panne matérielle corrompt un point de contrôle, la session recule de plusieurs heures ou jours de travail.
L’utilisation des GPU — le pourcentage du temps où chaque GPU effectue réellement un calcul utile — est une métrique d’efficacité critique. Les frameworks d’entraînement de pointe atteignent entre 38 et 55 % d’utilisation des FLOPS du modèle (MFU), ce qui signifie qu’environ la moitié de la capacité de calcul théorique du GPU est consommée par la surcharge de communication, les transferts mémoire et les bulles de pipeline. Améliorer le MFU ne serait-ce que de quelques points de pourcentage peut faire économiser des dizaines de millions de dollars sur une session d’entraînement de pointe.
Les pipelines de données sont tout aussi critiques. Les données d’entraînement doivent être dédupliquées, filtrées pour la qualité, tokenisées et mélangées — souvent plusieurs fois. Les lois d’échelle de Chinchilla dictent qu’un modèle de 1 000 milliards de paramètres devrait idéalement s’entraîner sur environ 20 000 milliards de tokens. Assembler, nettoyer et préparer ce volume de données est un défi d’ingénierie qui rivalise avec l’entraînement lui-même.
Publicité
Qui peut se le permettre ?
L’économie de la mise à l’échelle du calcul’IA a créé un oligopole naturel. Début 2026, moins de dix organisations dans le monde peuvent de manière crédible se permettre d’entraîner des modèles fondamentaux de pointe : OpenAI (soutenu par Microsoft), Google DeepMind, Anthropic (soutenu par Amazon et Google), Meta, xAI (soutenu par le capital d’Elon Musk), Mistral (soutenu par des investisseurs européens), et une poignée de laboratoires chinois dont ByteDance et Alibaba.
Cette concentration n’est pas principalement une question de talent — bien que les chercheurs en IA de pointe soient rares — mais de capital. Une seule session d’entraînement coûtant 500 millions de dollars nécessite non seulement les liquidités mais aussi l’infrastructure cloud pour l’exécuter. Sécuriser 30 000 GPU pendant quatre mois signifie soit posséder le matériel, soit négocier d’énormes contrats de capacité réservée avec des fournisseurs de cloud GPU.
Le résultat est un écart croissant entre les laboratoires de pointe et tous les autres. Les universités, les startups et les institutions de recherche gouvernementales qui pouvaient contribuer à la recherche fondamentale en IA en 2020 ne peuvent plus se permettre d’entraîner des modèles compétitifs. La barrière de calcul pour la recherche de pointe a augmenté d’environ trois ordres de grandeur en cinq ans.
Innovations en matière d’efficacité
L’industrie n’accepte pas passivement la courbe des coûts. Plusieurs innovations architecturales et méthodologiques repoussent la mise à l’échelle exponentielle.
Les architectures à mélange d’experts (MoE) n’activent qu’une fraction des paramètres totaux d’un modèle pour une entrée donnée, réduisant considérablement le calcul requis par token tout en maintenant la capacité d’un modèle beaucoup plus grand. Mixtral 8x7B, par exemple, utilise 12,9 milliards de paramètres actifs sur un total de 46,7 milliards, atteignant des performances compétitives avec des modèles plusieurs fois plus grands en taille effective.
La distillation de connaissances — entraîner de plus petits modèles « élèves » pour reproduire le comportement de plus grands modèles « enseignants » — offre une autre voie. Un modèle distillé peut atteindre 90 % des performances de son enseignant avec 10 % du nombre de paramètres. Cela ne réduit pas le coût d’entraînement de l’enseignant, mais réduit considérablement le coût du déploiement de l’IA à grande échelle.
La génération de données synthétiques, où des modèles existants produisent des données d’entraînement pour les modèles futurs, redéfinit discrètement le volet données de l’équation. Cette approche soulève des problèmes de contrôle qualité — les modèles peuvent amplifier leurs propres biais par auto-entraînement récursif — mais elle découple partiellement l’échelle d’entraînement de l’offre finie de texte de haute qualité produit par des humains.
L’apprentissage par curriculum, où les modèles sont d’abord entraînés sur des données plus simples puis progressivement exposés à des exemples plus difficiles, peut améliorer l’efficacité d’entraînement de 20 à 30 % dans certains contextes, réduisant le calcul total sans sacrifier les performances finales.
Le pivot vers l’inférence
Il y a une ironie au cœur de la mise à l’échelle du calcul’IA : la part la plus coûteuse du cycle de vie d’un modèle se déplace de l’entraînement vers l’inférence.
Entraîner un modèle de pointe est un coût ponctuel (ou peu fréquent), amorti sur chaque utilisateur et chaque requête que le modèle servira. L’inférence — le coût d’exécution du modèle entraîné pour générer des réponses — est un coût par requête qui augmente linéairement avec l’utilisation.
OpenAI sert des centaines de millions de requêtes par jour via ChatGPT et son API. Même à des fractions de centime par requête, la facture annuelle d’inférence éclipse les coûts d’entraînement. L’intégration de Gemini par Google dans Search — gérant des milliards de requêtes quotidiennes — fait de l’inférence la dépense de calcul dominante de loin.
Ce pivot génère une demande pour un profil matériel différent. L’entraînement optimise le débit brut et la bande passante GPU-GPU. La mise à l’échelle de l’inférence optimise la latence, le coût par token et l’efficacité énergétique. Le silicium sur mesure — les TPU de Google, Trainium et Inferentia d’Amazon, Maia de Microsoft — est de plus en plus conçu pour l’économie de l’inférence plutôt que pour les performances maximales d’entraînement.
La révolution de l’IA a été construite sur le constat que l’augmentation du calcul améliore de manière prévisible les capacités de l’IA. La question est désormais de savoir si l’industrie peut continuer à gravir une courbe de coûts qui double tous les six mois — ou si les innovations en matière d’efficacité et les percées architecturales la rendront soutenable.
Questions Fréquemment Posées
Qu’est-ce que ai compute scaling ?
Cet article couvre les aspects essentiels de ce sujet, en examinant les tendances actuelles, les acteurs clés et les implications pratiques pour les professionnels et les organisations en 2026.
Pourquoi ai compute scaling est-il important ?
Ce sujet est important car il a un impact direct sur la façon dont les organisations planifient leur stratégie technologique, allouent leurs ressources et se positionnent dans un paysage en évolution rapide.
Quels sont les points clés à retenir de cet article ?
L’article analyse les mécanismes clés, les cadres de référence et les exemples concrets qui permettent de comprendre le fonctionnement de ce domaine, en s’appuyant sur des données actuelles et des études de cas.
Sources et lectures complémentaires
- Kaplan et al. — Scaling Laws for Neural Language Models (OpenAI, 2020)
- Hoffmann et al. — Training Compute-Optimal Large Language Models (Chinchilla, DeepMind 2022)
- Epoch AI — The Training Compute of Notable AI Models Has Been Doubling Roughly Every Six Months
- Stanford HAI — AI Index Report 2025
- Fortune — Why the Cost of Training AI Could Soon Become Too Much to Bear
- SemiAnalysis — GPT-4 Architecture, Infrastructure, Training Dataset, Costs

















