La puce qui franchit la barre des 4 600 téraflops
La course à l’infrastructure IA entre dans une nouvelle phase. Le Tensor Processing Unit de septième génération de Google, nom de code Ironwood, représente l’offensive la plus ambitieuse de l’entreprise dans le silicium IA sur mesure — une puce conçue dès l’origine pour l’ère de l’inférence. Lorsqu’Anthropic a simultanément annoncé le déploiement de jusqu’à un million de ces puces pour ses modèles Claude, cela a signalé que l’équilibre des forces dans le calcul IA s’éloigne d’un monde dominé par un seul fournisseur de GPU.
Chaque puce Ironwood délivre 4 614 téraflops FP8 — soit une multiplication par 10 des performances crête par rapport au TPU v5p et plus de 4 fois l’efficacité par puce de son prédécesseur immédiat, le TPU v6e (Trillium). Le volet mémoire est tout aussi significatif : 192 Go de HBM3E par puce avec une bande passante de 7,37 To/s, soit une capacité multipliée par 6 par rapport à Trillium. Pour des modèles dont la taille croît à chaque génération, cette marge de manœuvre en mémoire élimine les goulots d’étranglement qui obligeaient auparavant les ingénieurs à fragmenter les modèles sur un nombre bien plus élevé de puces.
Chaque puce Ironwood utilise une architecture à double chiplet, chaque chiplet contenant un TensorCore, deux SparseCores et 96 Go de HBM — reliés par une interface die-to-die six fois plus rapide qu’une liaison ICI unique. Google revendique une amélioration de 2 fois du rapport performance-par-watt par rapport à Trillium, et près de 30 fois plus d’efficacité énergétique que son premier Cloud TPU. Dans un contexte où la consommation électrique des centres de données devient une contrainte majeure, cette métrique d’efficacité compte autant que les performances brutes.
Le superpod : 9 216 puces, 42,5 exaflops
C’est à grande échelle qu’Ironwood se distingue véritablement. Un seul superpod Ironwood connecte 9 216 puces via un réseau d’interconnexion inter-puces (ICI) à 9,6 Tb/s, délivrant un total combiné de 42,5 exaflops de calcul FP8. Pour donner un ordre de grandeur, l’ensemble du classement TOP500 des supercalculateurs représente environ 15 exaflops de performance LINPACK (FP64) — un seul superpod Ironwood dépasse ce total pour les charges de travail IA en précision réduite. Le superpod agrège également environ 1,77 pétaoctet de mémoire HBM3E — assez pour contenir intégralement les plus grands modèles de frontière dans une mémoire à haute bande passante.
La configuration complète du superpod consomme environ 10 mégawatts en pleine charge. Cela semble considérable en valeur absolue, mais le rapport performance-par-watt à 42,5 exaflops le rend remarquablement efficace comparé à l’assemblage d’une puissance de calcul équivalente à partir de GPU génériques. Selon l’analyse de SemiAnalysis, le coût total de possession (TCO) par puce Ironwood est inférieur d’environ 44 % à celui d’un serveur NVIDIA GB200 dans des configurations comparables. Pour les clients externes de Google Cloud, les coûts horaires sont environ 30 % inférieurs à la tarification du GB200.
Conçu pour l’ère du raisonnement
Les générations précédentes de TPU étaient principalement présentées comme des accélérateurs d’entraînement. Ironwood marque un virage délibéré. Google le décrit comme « le premier TPU pour l’ère de l’inférence », conçu sur mesure pour les exigences de faible latence et de haut débit du service de modèles IA à grande échelle.
Cette philosophie de conception reflète un changement fondamental dans l’industrie de l’IA. À mesure que les modèles de frontière arrivent à maturité, le goulot d’étranglement du calcul se déplace de l’entraînement (exécuté une seule fois) vers l’inférence (exécutée des milliards de fois). Les modèles de raisonnement tels que les systèmes de chaîne de pensée (chain-of-thought), les architectures mixture-of-experts et les cadres d’IA agentique nécessitent tous une capacité d’inférence soutenue qui dépasse largement leurs budgets d’entraînement. L’architecture d’Ironwood optimise la commutation rapide de contexte, l’exécution à faible latence et les patterns de communication en rafales caractéristiques du service de modèles en temps réel.
Google utilise ces puces en interne pour Search, YouTube, Gmail et Gemini — des services qui traitent collectivement des milliards de requêtes d’inférence quotidiennement. La mise à disposition d’Ironwood via Google Cloud permet aux clients externes d’accéder à la même infrastructure.
Publicité
Le pari de plusieurs milliards d’Anthropic sur le silicium sur mesure
Le 23 octobre 2025, Anthropic a annoncé la plus grande expansion de son utilisation des TPU à ce jour : l’accès à jusqu’à un million de puces Ironwood via Google Cloud, avec bien plus d’un gigawatt de capacité de centres de données mis en service d’ici 2026. Les estimations du secteur évaluent l’accord à plusieurs dizaines de milliards de dollars, environ 35 milliards étant typiquement alloués aux puces dans la construction d’un centre de données d’un gigawatt.
Pour Anthropic, c’est à la fois un investissement en capacité et en architecture. L’entreprise entraîne et fait fonctionner les modèles Claude sur les TPU depuis sa fondation, et ses équipes d’ingénierie possèdent une expertise approfondie dans l’optimisation pour le silicium de Google. Mais Anthropic ne mise pas exclusivement sur un seul fournisseur. L’entreprise maintient une stratégie multi-plateforme délibérée, utilisant les TPU de Google, les puces Trainium d’Amazon et les GPU NVIDIA en parallèle. Cette approche diversifiée protège contre les risques de chaîne d’approvisionnement et permet à Anthropic d’adapter les charges de travail au matériel le plus rentable.
L’ampleur de l’engagement — jusqu’à un million de puces — suggère qu’Anthropic se prépare à un avenir où la demande d’inférence pour Claude croît de plusieurs ordres de grandeur. Faire fonctionner des modèles de raisonnement, des systèmes agentiques et des applications multimodales à l’échelle mondiale nécessite exactement le type de calcul dense et efficace que fournissent les superpods Ironwood.
Google contre NVIDIA : la divergence d’échelle
Au niveau de la puce individuelle, Ironwood et le B200 de NVIDIA sont globalement comparables — 4,6 pétaflops contre 4,5 pétaflops en performance FP8. La divergence apparaît à grande échelle. Le système GB200 NVL72 de NVIDIA connecte 72 GPU dans un seul domaine NVLink, délivrant environ 0,72 exaflops de calcul FP8. Le superpod Ironwood de Google connecte 128 fois plus de puces, atteignant 42,5 exaflops dans un seul système logique.
Cette différence est déterminante pour les plus grands modèles de frontière. Lorsqu’un modèle nécessite des milliers de puces pour une seule passe d’inférence, le tissu réseau qui connecte ces puces devient aussi important que les puces elles-mêmes. Le réseau ICI de Google, conçu en interne et co-optimisé étroitement avec le silicium TPU, évite les pénalités de latence multi-saut qui apparaissent lors de la mise à l’échelle de clusters GPU au-delà d’un seul domaine NVLink.
Cela dit, NVIDIA conserve des avantages décisifs en termes de largeur d’écosystème, de maturité logicielle (CUDA) et de disponibilité matérielle tierce. Ironwood est disponible exclusivement via Google Cloud — ces puces ne s’achètent pas. Pour les organisations qui nécessitent une infrastructure IA sur site ou une portabilité multi-cloud, NVIDIA reste le choix par défaut. La voie TPU n’a de sens que pour les charges de travail pouvant s’engager dans l’écosystème de Google.
Ce que cela signifie pour l’infrastructure IA
Le lancement d’Ironwood et le méga-accord avec Anthropic cristallisent plusieurs tendances qui définiront l’infrastructure IA pour le reste de cette décennie :
Le silicium sur mesure n’est plus une niche. Google, Amazon (Trainium/Inferentia) et Microsoft (Maia 200) investissent tous des milliards dans des puces IA propriétaires. L’ère où NVIDIA était le seul fournisseur de calcul IA de frontière touche à sa fin — non pas parce que NVIDIA décline, mais parce que la demande est si importante que plusieurs architectures de silicium coexisteront.
L’inférence est le nouveau champ de bataille. Entraîner un modèle de frontière est une dépense d’investissement ponctuelle. Le servir à des millions d’utilisateurs est un coût opérationnel continu qui peut facilement dépasser les budgets d’entraînement en quelques mois. La conception d’Ironwood axée sur l’inférence reflète la direction que prennent les investissements.
Le verrouillage chez les hyperscalers est le compromis. Les TPU sur mesure offrent un rapport prix-performance supérieur au sein de Google Cloud, mais créent une dépendance profonde vis-à-vis du fournisseur. Anthropic s’en prémunit en maintenant une capacité parallèle sur AWS et avec NVIDIA. Les organisations plus petites n’ont pas forcément ce luxe.
Questions Fréquemment Posées
Qu’est-ce qui distingue le TPU Ironwood de Google des générations précédentes ?
Ironwood est le premier TPU de Google explicitement conçu pour l’ère de l’inférence plutôt que principalement pour l’entraînement. Chaque puce délivre 4 614 téraflops FP8 avec 192 Go de mémoire HBM3E — soit une multiplication par 10 des performances crête par rapport au TPU v5p. Son architecture à double chiplet et son amélioration de 2 fois du rapport performance-par-watt par rapport à Trillium en font une puce optimisée pour les exigences de faible latence et de haut débit du service de modèles IA à grande échelle.
Pourquoi Anthropic s’est-elle engagée sur jusqu’à un million de puces Ironwood ?
Anthropic entraîne et fait fonctionner Claude sur l’architecture TPU de Google depuis sa création, conférant à ses ingénieurs une expertise approfondie en optimisation. L’accord, annoncé en octobre 2025 et estimé à plusieurs dizaines de milliards de dollars avec plus d’un gigawatt de capacité de centres de données, reflète l’anticipation d’Anthropic selon laquelle la demande d’inférence pour Claude croîtra de plusieurs ordres de grandeur à mesure que les modèles de raisonnement et les systèmes d’IA agentique se déploient à l’échelle mondiale.
Comment Ironwood se compare-t-il aux GPU Blackwell de NVIDIA pour les charges de travail IA ?
Au niveau de la puce individuelle, Ironwood (4,6 PFLOPS FP8) et le B200 de NVIDIA (4,5 PFLOPS FP8) sont quasi identiques. La différence critique réside dans l’échelle : un superpod Ironwood connecte 9 216 puces pour 42,5 exaflops, tandis que le GB200 NVL72 de NVIDIA connecte 72 GPU pour environ 0,72 exaflops FP8. Cependant, NVIDIA conserve des avantages en termes de maturité de l’écosystème logiciel CUDA et de disponibilité matérielle au-delà de Google Cloud.
Sources et lectures complémentaires
- Ironwood: The First Google TPU for the Age of Inference — Google Blog
- Anthropic to Expand Use of Google Cloud TPUs and Services — Google Cloud Press Corner
- Google and Anthropic Confirm Massive 1GW+ Cloud Deal — Data Centre Dynamics
- Inside the Ironwood TPU Codesigned AI Stack — Google Cloud Blog
- Google and Anthropic Announce Cloud Deal Worth Tens of Billions — CNBC
- Expanding Our Use of Google Cloud TPUs and Services — Anthropic
- Google Deploys Axion CPUs and Seventh-Gen Ironwood TPU — Tom’s Hardware
- TPU7x (Ironwood) Documentation — Google Cloud






