Table des matières

  1. Introduction : les fondations physiques de l’IA
  2. L’économie des GPU : la domination de NVIDIA et ses challengers
  3. La construction des centres de données : une échelle jamais vue
  4. Le scaling du calcul : les lois qui alimentent la course
  5. La guerre du cloud : AWS, Azure, Google et la bataille pour les charges IA
  6. Le problème énergétique : l’appétit insatiable de l’IA
  7. La révolution du silicium sur mesure
  8. L’inférence : le champ de bataille caché
  9. La géopolitique du calcul
  10. La suite
  11. Radar de Décision
  12. Sources et lectures complémentaires

Introduction : les fondations physiques de l’IA

Chaque conversation avec ChatGPT, chaque image générée par Midjourney, chaque ligne de code suggérée par Copilot repose sur un substrat physique : des serveurs bourrés de puces spécialisées, refroidis par des systèmes industriels, connectés par des réseaux à haut débit et alimentés par une électricité mesurée en mégawatts.

La révolution de l’IA fonctionne sur du silicium et de l’acier. Et en 2026, la course à la construction de l’infrastructure physique qui alimente l’intelligence artificielle est devenue le plus grand déploiement de capital de l’histoire de l’industrie technologique.

Les dépenses totales en infrastructure IA des principaux hyperscalers — Amazon, Microsoft, Google et Meta — ont dépassé 400 milliards de dollars en 2025 et devraient dépasser 600 milliards de dollars en 2026. Ce ne sont pas des investissements logiciels. Ce sont des projets de construction : des centres de données de la taille d’entrepôts, remplis de GPU coûtant entre 30 000 et 40 000 dollars chacun, consommant une électricité qui pourrait alimenter de petites villes.

En bref : La course aux infrastructures IA est désormais le plus grand déploiement de capital de l’histoire de la technologie, avec les hyperscalers engageant plus de 600 milliards de dollars en 2026. Comprendre l’économie des GPU, la construction des centres de données et les contraintes énergétiques est essentiel pour quiconque construit avec ou investit dans l’IA.

Comprendre cette couche d’infrastructure est essentiel pour quiconque construit avec l’IA. Les choix faits au niveau matériel — quelles puces utiliser, où construire les centres de données, comment gérer l’énergie — déterminent quels types d’IA sont possibles, combien ils coûtent et qui y a accès.

L’économie des GPU : la domination de NVIDIA et ses challengers

NVIDIA contrôle environ 80 à 90 % du marché des accélérateurs IA, ce qui en fait peut-être la position dominante la plus forte qu’une entreprise ait occupée dans un secteur technologique critique depuis l’apogée d’Intel à l’ère du PC.

Les puces de dernière génération de l’entreprise — les Blackwell B200 et GB200 — représentent un bond substantiel en performances d’entraînement et d’inférence. Un seul GPU B200 délivre jusqu’à 20 pétaflops de calcul IA en FP4/FP8 avec 192 Go de mémoire HBM3e. Le superchip GB200 Grace Blackwell associe deux GPU B200 à un CPU Grace via NVLink-C2C, délivrant jusqu’à 20 pétaflops de calcul FP8 par superchip. Le système GB200 NVL72 de NVIDIA intègre 72 GPU Blackwell dans un seul rack refroidi par liquide avec 360 pétaflops de calcul FP8, ciblant les clusters de calcul massifs nécessaires à l’entraînement des modèles de pointe.

L’économie des GPU s’étend bien au-delà des ventes de matériel. L’écosystème logiciel CUDA de NVIDIA — le modèle de programmation, les bibliothèques et les outils de développement construits sur 15 ans — crée un avantage aussi profond que le silicium lui-même. Entraîner un modèle de pointe n’est pas simplement une question d’avoir assez de GPU ; cela nécessite un stack logiciel que CUDA domine.

Les challengers

Le MI300X d’AMD représente le défi le plus crédible au niveau GPU face à NVIDIA. Avec 192 Go de mémoire HBM3 et 5,3 To/s de bande passante — significativement plus de mémoire que le H100 de NVIDIA — le MI300X offre des avantages pour les charges d’inférence où la capacité mémoire compte. Microsoft Azure et Oracle Cloud ont été parmi les premiers clients à grande échelle du MI300X.

Le Gaudi 3 d’Intel cible le marché des accélérateurs IA avec un rapport performances/prix compétitif, bien que l’adoption ait été plus lente que prévu. Intel a réduit son objectif d’expéditions de Gaudi 3 pour 2025 de plus de 30 %, et la stratégie IA de l’entreprise s’est orientée vers son architecture de nouvelle génération Jaguar Shores.

Mais les challengers les plus disruptifs pourraient être les startups de silicium sur mesure qui conçoivent des puces spécifiquement pour des charges IA particulières plutôt que pour le calcul GPU polyvalent.

La construction des centres de données : une échelle jamais vue

L’expansion des centres de données portée par la demande en IA est sans précédent dans l’infrastructure technologique.

Meta prévoit de dépenser entre 115 et 135 milliards de dollars en infrastructure en 2026, soit plus du double de ses dépenses de 2025 d’environ 66 à 72 milliards de dollars. Une part significative est consacrée à un campus de centres de données de 2 gigawatts à Richland Parish, en Louisiane — nom de code Hyperion — qui sera la plus grande installation IA sur un seul site jamais construite. Les dépenses d’investissement de Microsoft ont atteint 80 milliards de dollars pour l’exercice fiscal 2025, avec l’exercice 2026 en trajectoire vers 120 milliards de dollars ou plus. Amazon Web Services a engagé plus de 100 milliards de dollars pour l’expansion de ses centres de données en 2025, avec un budget stupéfiant de 200 milliards de dollars pour 2026. Alphabet, la maison mère de Google, a dépensé entre 91 et 93 milliards de dollars en infrastructure en 2025 et a budgété entre 175 et 185 milliards de dollars pour 2026.

Ces chiffres ne cessent d’augmenter. Goldman Sachs projette que l’IA entraînera une augmentation de 165 % de la demande en énergie des centres de données d’ici 2030. Le capital total investi dans l’infrastructure IA par les principaux hyperscalers seuls devrait dépasser 600 milliards de dollars en 2026.

La géographie du calcul

Les centres de données ne sont pas construits au hasard. Ils se regroupent près de trois éléments : une électricité bon marché, des climats froids (pour le refroidissement) et des nœuds de réseaux de fibre optique.

Le nord de la Virginie reste le plus grand marché de centres de données au monde, hébergeant environ 13 % de la capacité mondiale et environ 25 % de la capacité dans les Amériques. Mais de nouveaux corridors émergent. Le centre et l’ouest du Texas ont attiré des constructions massives de Meta, Google et Microsoft, attirés par l’électricité et le foncier bon marché. Les pays nordiques (Suède, Norvège, Finlande) offrent des climats froids et une énergie hydroélectrique renouvelable. Le Moyen-Orient — en particulier l’Arabie saoudite et les Émirats arabes unis — investit massivement dans la capacité de centres de données IA dans le cadre de stratégies plus larges de diversification économique.

Pour les pays en développement, y compris l’Algérie, cette géographie crée à la fois des défis et des opportunités. La distance physique par rapport aux principaux clusters de calcul affecte la latence et l’accès. Mais la demande croissante de calcul distribué — en particulier pour les charges d’inférence qui bénéficient de la proximité avec les utilisateurs — pourrait éventuellement stimuler l’investissement en infrastructure dans les régions mal desservies.

Le scaling du calcul : les lois qui alimentent la course

La course aux infrastructures IA est alimentée par une observation simple : des modèles plus grands, entraînés sur plus de données avec plus de calcul, sont systématiquement plus performants. Cette relation — connue sous le nom de scaling du calcul — s’est remarquablement bien maintenue à travers les générations de modèles.

L’article original d’OpenAI sur les lois de scaling (2020) a démontré une relation en loi de puissance entre le budget de calcul et les performances du modèle. Les lois de scaling Chinchilla (2022) ont affiné cela en montrant que les données d’entraînement devraient évoluer proportionnellement à la taille du modèle. Des travaux plus récents ont exploré le scaling du calcul à l’inférence — dépenser plus de calcul pendant l’inférence pour améliorer la qualité du raisonnement.

L’économie de l’entraînement

Entraîner un modèle de pointe en 2026 coûte des centaines de millions de dollars — et les coûts ne cessent d’augmenter. Le coût d’entraînement de GPT-4 a été estimé à plus de 100 millions de dollars. GPT-5 (nom de code Orion) aurait nécessité plus de 500 millions de dollars par cycle d’entraînement. La prochaine génération de modèles de pointe pourrait franchir le milliard de dollars en coûts d’entraînement.

Ces coûts créent une barrière naturelle à l’entrée. Seule une poignée d’organisations — OpenAI, Google, Anthropic, Meta et quelques laboratoires chinois — peuvent se permettre d’entraîner des modèles de pointe. Cette concentration soulève des questions importantes sur qui contrôle les systèmes d’IA les plus performants et à quelles conditions ils sont mis à disposition.

Les alternatives open source comme la famille Llama de Meta offrent un contrepoids partiel. En publiant les poids des modèles, Meta permet aux organisations qui ne peuvent pas se permettre un entraînement de pointe de déployer tout de même des modèles performants — du moins pour les charges qui ne nécessitent pas des performances de dernière génération.

Au-delà de l’entraînement : l’impératif de l’inférence

Un défi de scaling plus subtil mais tout aussi important est l’inférence — l’exécution des modèles entraînés pour générer des réponses. Alors que l’entraînement est un coût unique, les coûts d’inférence sont continus et évoluent avec l’utilisation. À mesure que les applications d’IA passent des démos à la production, l’inférence devient le poste de coût dominant.

L’économie est frappante : servir une application d’IA populaire peut coûter des millions de dollars par mois en calcul. Cela stimule l’innovation en optimisation d’inférence — modèles plus petits, quantification, décodage spéculatif, architectures mixture-of-experts — et crée un tout nouveau marché pour du matériel d’inférence spécialisé.

Advertisement

La guerre du cloud : AWS, Azure, Google et la bataille pour les charges IA

La guerre du cloud entre hyperscalers a été amplifiée par la demande en IA. Chaque grand fournisseur de cloud déploie des stratégies différentes pour capter les charges IA.

Microsoft Azure dispose du partenariat avec OpenAI comme capacité IA phare. L’accès exclusif aux modèles GPT et l’intégration de Copilot à travers la suite de produits Microsoft donnent à Azure une position unique. L’infrastructure IA d’Azure comprend à la fois des GPU NVIDIA et des clusters AMD MI300X, ainsi que des accélérateurs IA personnalisés Maia 100.

Amazon Web Services tire parti de sa position de leader du marché cloud (~30 % de parts de marché) et de ses puces personnalisées Trainium. Le Trainium2 d’AWS — conçu spécifiquement pour l’entraînement de grands modèles — offre des performances compétitives à un coût inférieur aux GPU NVIDIA. Les puces Inferentia de l’entreprise ciblent le marché de l’inférence.

Google Cloud Platform bénéficie des décennies d’expertise en recherche IA de Google et du matériel personnalisé TPU (Tensor Processing Unit). Le TPU v5p et l’architecture Trillium fournissent des alternatives à l’entraînement centré sur les GPU. Google propose également les modèles Gemini nativement, créant un stack IA verticalement intégré.

Les challengers émergents comme CoreWeave, Lambda Labs et Together AI construisent une infrastructure cloud GPU axée exclusivement sur les charges IA. L’approche GPU-first de CoreWeave et son partenariat avec NVIDIA ont alimenté une croissance rapide — l’entreprise a levé 1,1 milliard de dollars en Series C, dépassé 5 milliards de dollars de revenus en 2025, et projette 12 à 13 milliards de dollars de revenus pour 2026, soutenue par un carnet de commandes contractuel dépassant 55 milliards de dollars.

Pour les entreprises qui choisissent où déployer leurs charges IA, la décision dépend de plus en plus des modèles qu’elles utilisent, des performances dont elles ont besoin, et de la valeur qu’elles accordent à la flexibilité propriétaire versus open source. L’ère de la domination d’un seul cloud laisse place à des stratégies IA multi-cloud où les organisations utilisent différents fournisseurs pour différentes charges.

Le problème énergétique : l’appétit insatiable de l’IA

La contrainte la plus pressante sur les infrastructures IA n’est pas le silicium — c’est l’électricité. Un seul centre de données IA moderne peut consommer entre 100 et 300 mégawatts, l’équivalent de l’alimentation de 80 000 à 250 000 foyers.

Goldman Sachs estime que la consommation électrique mondiale des centres de données pourrait augmenter de 165 % d’ici 2030, principalement portée par les charges IA. Aux États-Unis seulement, les centres de données devraient représenter 6 à 9 % de la consommation totale d’électricité d’ici 2030, contre environ 3 à 4 % en 2024, selon les estimations de l’Electric Power Research Institute (EPRI) et de Goldman Sachs.

Cette crise énergétique pousse l’industrie à poursuivre simultanément plusieurs stratégies :

L’énergie nucléaire fait son retour. Microsoft a signé un contrat d’achat d’énergie sur 20 ans avec Constellation Energy pour redémarrer une unité de Three Mile Island (rebaptisée Crane Clean Energy Center), dont la mise en service est prévue en 2027. Amazon a obtenu un accord d’énergie nucléaire de 17 ans et 18 milliards de dollars avec Talen Energy pour jusqu’à 1 920 MW de la centrale nucléaire de Susquehanna. Google a signé le premier accord d’entreprise au monde pour acheter de l’énergie de petits réacteurs modulaires (SMR), soutenant sept réacteurs Kairos Power qui fourniront jusqu’à 500 MW à partir de 2030 environ. La logique est convaincante : le nucléaire fournit une énergie de base fiable et sans carbone — exactement ce dont les centres de données ont besoin.

Les engagements en énergie renouvelable continuent de croître, mais l’écart entre les engagements et la réalité se creuse. Les hyperscalers ont acheté des quantités massives de certificats d’énergie renouvelable, mais la livraison physique d’énergie éolienne et solaire ne s’aligne pas toujours avec les demandes 24h/24 des centres de données.

Les innovations en efficacité — incluant des systèmes de refroidissement liquide avancés, des architectures de puces plus efficaces et l’optimisation des charges — améliorent l’efficacité énergétique par calcul, mais la consommation totale continue d’augmenter car la demande dépasse les gains d’efficacité.

La consommation d’eau pour le refroidissement des centres de données est une autre préoccupation émergente. Un grand centre de données peut consommer jusqu’à 5 millions de gallons d’eau par jour, et les centres de données américains consomment collectivement environ 449 millions de gallons quotidiennement, créant des tensions avec les communautés dans les régions où l’eau est sous pression.

La révolution du silicium sur mesure

La domination du GPU dans l’IA n’est pas garantie. Une vague croissante de silicium sur mesure — des circuits intégrés spécifiques à une application (ASIC) conçus exclusivement pour les charges IA — promet de meilleures performances, un coût inférieur ou une consommation énergétique moindre pour des tâches spécifiques.

Les TPU de Google ont été les pionniers, démontrant que les accélérateurs IA personnalisés pouvaient rivaliser avec les GPU pour l’entraînement de grands modèles. Les puces Trainium et Inferentia d’AWS ont suivi. Le Maia 100 de Microsoft et les puces d’entraînement personnalisées de Meta (MTIA) représentent les derniers entrants parmi les hyperscalers qui construisent leur propre silicium.

Les startups ciblent le marché de l’inférence avec des architectures novatrices. Les Language Processing Units (LPU) de Groq offrent une inférence dramatiquement plus rapide grâce à une approche déterministe axée sur le compilateur. Le moteur à l’échelle du wafer de Cerebras — une puce unique de la taille d’un wafer de silicium entier — élimine le goulot d’étranglement de la bande passante mémoire qui limite la vitesse d’inférence des GPU. L’architecture de flux de données de SambaNova cible les charges IA d’entreprise.

La révolution du silicium sur mesure ne signifie pas que les GPU vont disparaître. Le marché se fragmente plutôt : GPU pour l’entraînement polyvalent, puces sur mesure pour des charges d’inférence spécifiques, et approches hybrides qui combinent les deux. Pour les systèmes d’exploitation IA qui gèrent des flottes d’agents, la gestion hétérogène du calcul — routage des charges vers le matériel optimal — deviendra une capacité essentielle.

L’inférence : le champ de bataille caché

Alors que les gros titres se concentrent sur l’entraînement, l’inférence devient silencieusement le défi économique le plus important. Chaque conversation ChatGPT, chaque suggestion Copilot, chaque image générée par IA nécessite du calcul d’inférence. À mesure que les applications d’IA passent à l’échelle de milliards d’utilisateurs, les coûts d’inférence éclipsent les coûts d’entraînement.

Ce changement remodèle le paysage matériel. L’entraînement récompense le débit brut de calcul — entasser autant d’opérations en virgule flottante que possible dans chaque puce. L’inférence récompense la latence (quelle vitesse pour générer chaque token ?), le débit par watt (combien de requêtes par kilowatt ?) et le coût par token (combien coûte le service de chaque réponse ?).

Le stack d’optimisation de l’inférence comprend :

Compression de modèle : La quantification (réduction de la précision numérique de 32 bits à 8 bits, voire 4 bits), l’élagage (suppression des connexions inutiles) et la distillation (entraîner des modèles plus petits pour imiter les plus grands) réduisent tous les coûts d’inférence au prix d’un compromis sur la qualité.

Mixture-of-Experts (MoE) : Des architectures comme DeepSeek-V3 et Llama 4 Maverick n’utilisent qu’une fraction de leurs paramètres totaux pour chaque token, réduisant dramatiquement le calcul par inférence tout en maintenant la qualité.

Décodage spéculatif : Utiliser un petit modèle rapide pour générer des tokens brouillons qu’un modèle plus grand vérifie ensuite — obtenant la qualité du grand modèle à une vitesse proche de celle du petit modèle.

Mise en cache et regroupement : Réutiliser les calculs entre des requêtes similaires et regrouper plusieurs requêtes pour l’efficacité GPU.

Les entreprises qui remportent la bataille de l’efficacité d’inférence — produisant plus d’intelligence par dollar et par watt — détermineront en fin de compte à quel point l’IA sera accessible et abordable.

La géopolitique du calcul

L’infrastructure IA est devenue un théâtre de compétition géopolitique. Le gouvernement américain a imposé des contrôles à l’exportation de plus en plus stricts sur les puces IA avancées, restreignant la vente des GPU les plus puissants de NVIDIA à la Chine et à certaines autres nations.

La Chine a répondu en accélérant le développement de puces nationales. Les accélérateurs Ascend 910B et 910C de Huawei représentent les puces IA chinoises les plus avancées, bien qu’elles restent en retrait par rapport au H100 de NVIDIA — l’Ascend 910C délivre environ 60 à 80 % des performances du H100 selon la charge. Les contraintes de fabrication du processus DUV 7nm de SMIC limitent les taux de rendement à environ 30 %, créant des goulots d’étranglement d’approvisionnement.

La position de TSMC — fabricant la grande majorité des puces les plus avancées du monde sur l’île de Taiwan — crée un risque de concentration géopolitique dont toute l’industrie de l’IA dépend. La première usine TSMC en Arizona a lancé la production en série début 2025 en technologie de procédé 4nm, avec une deuxième usine ciblant la production en 3nm en 2027 et une troisième usine annoncée pour les procédés 2nm plus tard dans la décennie. L’investissement total en Arizona a atteint 165 milliards de dollars, mais les processus de fabrication les plus avancés resteront à Taiwan pour des années encore.

Pour les nations en dehors de l’axe États-Unis-Chine, y compris l’Algérie et le continent africain au sens large, la géopolitique du calcul crée à la fois des contraintes et des opportunités. L’accès aux puces IA de pointe est limité par les contrôles à l’exportation et l’allocation de l’offre. Mais le marché croissant pour du matériel optimisé pour l’inférence, l’accès cloud aux modèles de pointe, et la montée de modèles open source efficaces créent des voies alternatives vers les capacités IA.

Les initiatives d’IA souveraine — où les nations investissent dans l’infrastructure et les capacités IA domestiques — se multiplient à l’échelle mondiale. Le choix entre construire une capacité de calcul nationale ou s’appuyer sur les services cloud des hyperscalers devient une décision stratégique pour chaque gouvernement national.

La suite

La course aux infrastructures IA ne montre aucun signe de ralentissement. Plusieurs tendances façonneront sa prochaine phase :

Consolidation et spécialisation. Le marché matériel se fragmentera davantage : GPU pour l’entraînement, ASIC pour l’inférence, puces neuromorphiques pour l’IA en périphérie. Les entreprises qui construiront les meilleures abstractions logicielles à travers ce paysage matériel hétérogène — les systèmes d’exploitation IA qui permettent aux développeurs d’ignorer la complexité matérielle — capteront une valeur disproportionnée.

La contrainte énergétique devient contraignante. D’ici 2 à 3 ans, la disponibilité de l’électricité — pas la disponibilité des puces — sera le principal goulot d’étranglement pour l’expansion des infrastructures IA. Les entreprises ayant des contrats d’énergie sécurisés et des partenariats nucléaires auront des avantages structurels.

L’économie de l’inférence détermine l’accessibilité. À mesure que les coûts d’entraînement se stabilisent (les modèles s’améliorent davantage par l’architecture que par la force brute du calcul), le coût de l’inférence déterminera à quel point les capacités IA sont largement distribuées. Une inférence moins chère signifie que l’IA touche plus d’utilisateurs, plus de cas d’usage et plus de géographies.

La guerre du cloud s’intensifie. Les hyperscalers se feront concurrence sur le prix, les performances et l’accès aux modèles. Le silicium sur mesure donne à chaque fournisseur de cloud une structure de coûts différenciée, rendant les comparaisons directes de plus en plus difficiles.

La couche physique de l’IA n’est pas glamour. Il n’y a pas de démos virales de construction de centres de données, pas d’engouement des consommateurs pour les architectures GPU. Mais cette infrastructure détermine tout le reste : quels modèles sont entraînés, à quelle vitesse ils fonctionnent, combien ils coûtent et qui y a accès. Le stack d’IA agentiqueagents, orchestration, outils, mémoire — repose entièrement sur cette fondation physique.

Les vainqueurs de la guerre des infrastructures IA ne domineront pas seulement un marché. Ils façonneront quels futurs de l’IA seront possibles.

Advertisement

Radar de Décision (Optique Algérie)

Dimension Évaluation
Pertinence pour l’Algérie Élevée — Les décisions d’infrastructure affectent l’accessibilité, le coût et la souveraineté de l’IA ; les ressources énergétiques de l’Algérie (gaz naturel, potentiel solaire) créent des opportunités uniques pour l’hébergement de centres de données
Infrastructure prête ? Non — Capacité GPU/centres de données domestique limitée ; forte dépendance aux fournisseurs de cloud internationaux ; capacité significative de production d’électricité mais installations de classe centre de données limitées
Compétences disponibles ? Partielles — Solide base en ingénierie électrique et génie civil ; expertise limitée en opérations de centres de données et systèmes GPU
Horizon d’action 12-24 mois — Planification stratégique pour l’investissement en centres de données, évaluation des partenariats cloud, et positionnement énergie-contre-calcul
Parties prenantes clés Agences gouvernementales de technologie, entreprises énergétiques (Sonatrach, Sonelgaz), opérateurs télécoms, consommateurs de services cloud
Type de décision Stratégique — Les décisions nationales sur l’investissement en infrastructure IA façonnent des décennies de positionnement concurrentiel

En bref : Les vastes ressources énergétiques de l’Algérie — à la fois l’infrastructure existante de gaz naturel et le potentiel solaire inexploité du Sahara — la positionnent de manière unique dans le paysage des infrastructures IA. Bien que la construction de clusters d’entraînement de pointe soit irréaliste à court terme, l’Algérie pourrait attirer des investissements en centres de données axés sur l’inférence en offrant des coûts énergétiques compétitifs et un positionnement géographique stratégique entre l’Europe et l’Afrique. La première étape est d’évaluer les partenariats avec les hyperscalers cherchant des sites riches en énergie pour leurs installations de nouvelle génération.

Sources et lectures complémentaires