L’écart de prix de 90 % qui redessine le calcul IA
Pendant la majeure partie du cycle de pénurie de GPU qui a commencé en 2023, la question n’était pas « combien coûte un H100 par heure ? » mais « puis-je obtenir un H100 du tout ? ». En avril 2026, cette question s’est inversée. La capacité est largement disponible chez au moins six clouds GPU spécialisés, et la décision dominante est désormais la discrimination par les prix — payer entre 0,78 et 14,19 $ pour le même silicium NVIDIA selon le plan de contrôle auquel vous louez.
Les chiffres sont saisissants. Selon la comparaison des prix d’avril 2026 de Thunder Compute, un A100 80GB se loue à 0,78 $/h sur Thunder, 0,85 $/h sur TensorDock, 1,21 $/h sur Vast.ai, 1,39 $/h sur Hyperstack et RunPod, et 1,99 $/h sur Lambda. La même puce coûte 1,85 $/h sur AWS, 2,21 $/h sur CoreWeave et 3,67 $/h sur Google Cloud. Pour le H100 80GB, l’écart est encore plus large : 1,38 $/h sur Thunder Compute contre 14,19 $/h sur Google Cloud — un multiple de plus de 10x.
Ce n’est plus un marché « comparez pour économiser 20 % ». C’est un marché structurellement bifurqué, où les fournisseurs spécialisés rivalisent sur les tarifs horaires de commodité tandis que les hyperscalers rivalisent sur l’intégration plateforme, le réseau et les achats d’entreprise. Choisir le mauvais palier peut coûter à une équipe IA de taille moyenne une facture GPU annuelle à six chiffres qu’elle n’avait pas besoin de payer.
La carte des fournisseurs en 2026
Le marché du cloud GPU se classe désormais en trois paliers. Le palier commodité — Thunder Compute, RunPod, Vast.ai, TensorDock, Hyperstack, Hyperbolic — rivalise sur la facturation à la seconde et l’accès bare-metal. Ces fournisseurs possèdent ou agrègent typiquement la capacité GPU, exploitent des plans de contrôle légers et répercutent les économies de coût aux utilisateurs. C’est le plancher des prix.
Le palier cloud-IA spécialisé — CoreWeave, Lambda, Nebius — se situe entre commodité et hyperscaler. Ils offrent un réseau plus riche (tissus InfiniBand, clusters d’entraînement multi-nœuds), une meilleure intégration avec les workflows IA, et des SLA proches des standards d’entreprise. Ils facturent plus que les fournisseurs commodité mais moins que les hyperscalers, et ciblent les charges d’entraînement sérieuses où la topologie réseau compte vraiment.
Le palier hyperscaler — AWS, Azure, Google Cloud, Oracle — fournit les GPU comme un produit parmi des centaines. Leurs prix reflètent la valeur plateforme, pas l’économie GPU : contrats d’entreprise, intégration IAM, options de résidence des données et liens écosystème profonds. Pour un Fortune 500 déjà standardisé sur AWS, payer 1,85 $/h pour un A100 contre 0,78 $/h sur Thunder est rationnel parce que les coûts marginaux d’achat, de sécurité et de gravité des données pour utiliser un fournisseur séparé dépassent les économies GPU.
Le quatrième pseudo-palier est le marché spot/préemptible, où la marketplace d’hôtes Vast.ai et les instances spot AWS peuvent baisser les prix de 50 à 70 % supplémentaires en échange d’interruptions. Pour l’entraînement avec checkpoint et l’inférence par lots, c’est là que vivent les vrais chasseurs de bonnes affaires.
Publicité
Quand les économies sont réelles, et quand elles sont une illusion
L’écart de prix horaire affiché est vrai ; l’écart de coût total est souvent plus petit qu’il ne paraît. La friction se situe à cinq endroits.
Sortie et stockage. Les fournisseurs spécialisés mesurent typiquement le stockage objet et la bande passante de manière agressive. Une exécution d’entraînement qui tire 5 To de données depuis un bucket hyperscaler vers un cloud GPU spécialisé encourt des frais de sortie qui peuvent éroder les économies GPU. Les architectes qui gardent données et calcul chez le même fournisseur — ou utilisent du stockage sans frais de sortie de type Cloudflare R2 — préservent les économies ; ceux qui ne le font pas peuvent en perdre la moitié.
Topologie réseau. L’entraînement multi-nœuds nécessite InfiniBand non bloquant ou équivalent. Les fournisseurs commodité offrent souvent uniquement l’accès mono-nœud, ou leur « multi-nœud » passe par un réseau de qualité grand public. Pour l’entraînement de modèles à 70 milliards de paramètres et plus, cela compte ; pour le fine-tuning, le RAG et l’inférence, généralement non. Mal juger cela est l’erreur la plus coûteuse du marché.
Fiabilité et support. Les hyperscalers portent des SLA à 99,9 % et plus et un support entreprise 24/7. Les fournisseurs commodité fonctionnent souvent avec des effectifs minces, du support communautaire et une disponibilité au mieux. Pour le service d’inférence en production aux clients payants, l’écart de SLA peut justifier l’écart de prix. Pour les charges de recherche, généralement non.
Conformité. AWS, Azure et Google Cloud portent les certifications SOC 2, HIPAA, FedRAMP, ISO 27001 et (dans les régions UE) alignées RGPD. La plupart des clouds GPU commodité n’en portent que peu ou pas. Pour les industries régulées, l’écart de conformité ferme entièrement l’option moins chère.
Vélocité d’achat. Les contrats hyperscaler peuvent être amendés via les accords-cadres existants ; l’intégration d’un nouveau fournisseur dans un Fortune 500 prend de 3 à 9 mois. Pour un directeur technique qui a besoin de GPU ce trimestre, l’hyperscaler lent-mais-sans-friction peut battre l’alternative bon-marché-mais-sans-contrat.
Ce que cela signifie pour les responsables d’ingénierie
1. Hiérarchisez vos charges de travail selon la carte des fournisseurs avant de signer quoi que ce soit
L’erreur dominante en 2026 est de traiter le « cloud GPU » comme une décision d’achat unique. C’est au moins trois. L’inférence en production pour clients payants appartient à un palier avec de vrais SLA — typiquement un hyperscaler ou CoreWeave/Lambda. L’entraînement multi-nœuds pour des exécutions à l’échelle de modèles fondamentaux appartient à des fournisseurs spécialisés équipés InfiniBand. L’expérimentation, le fine-tuning et l’inférence par lots appartiennent au palier commodité où vivent Thunder Compute, RunPod et Vast.ai. Les responsables d’ingénierie qui construisent une architecture mono-palier soit surpaient pour l’expérimentation, soit ne tiennent pas en production. Les équipes qui construisent une pile délibérée à trois paliers — avec une logique de routage des charges et des playbooks de migration clairs — capturent à la fois les économies et la fiabilité.
2. Verrouillez une prévision sur 12 mois avant de négocier la capacité réservée
L’avantage prix des fournisseurs spécialisés se compose lorsque vous vous engagez. RunPod, Lambda et Hyperstack offrent tous des remises de capacité réservée de 30 à 50 % sur le tarif on-demand pour des engagements de 6 à 12 mois. L’erreur des équipes est de s’engager sans prévoir : elles réservent 8 H100, découvrent qu’elles n’en utilisent que 4 régulièrement, et paient pour de la capacité qui reste inactive. Construisez une prévision de consommation sur 12 mois basée sur les données d’utilisation réelles du trimestre précédent, puis engagez-vous au niveau de demande du 70e percentile. Faites tourner le reste sur du burst on-demand. Cela atterrit typiquement à 5-10 % de l’optimum absolu sans nécessiter de prévision parfaite.
3. Auditez l’architecture de sortie et de stockage trimestriellement
Les économies des GPU moins chers s’évaporent vite si la sortie de données est mal gérée. Trimestriellement, auditez le flux de données entre stockage et calcul : combien de données bougent, d’où vers où, et combien coûte chaque tronçon. Le correctif standard est l’un de trois patrons — colocaliser le stockage avec le fournisseur GPU (Cloudflare R2 + RunPod, par exemple), utiliser un CDN pour mettre en cache les données d’entraînement chaudes au bord GPU, ou stocker les données dans un stockage objet supporté nativement par le cloud GPU. Les équipes qui sautent cet audit découvrent régulièrement, six mois plus tard, qu’elles paient plus en sortie qu’elles n’ont économisé sur les GPU. L’audit est un exercice d’une journée qui récupère des dizaines de milliers par trimestre.
Le tableau d’ensemble : GPU comme commodité, cloud comme service
La leçon structurelle des prix GPU 2026 est que le GPU lui-même devient une commodité, tandis que tout ce qui l’entoure — réseau, stockage, conformité, support — est le produit réel. L’écart de prix de 90 % entre Thunder Compute et Google Cloud n’est pas une inefficacité de marché ; c’est un marché qui se trie selon ce que chaque client valorise réellement. Une startup qui exécute des expériences de fine-tuning paie rationnellement 0,78 $/h parce qu’aucune des plus-values hyperscaler ne l’aide. Une banque régulée qui exécute de l’inférence de détection de fraude paie rationnellement 14,19 $/h parce que l’intégration plateforme, le SLA et la conformité sont le livrable, pas le silicium.
Ce qui suit, ce sont deux serrages. Les fournisseurs spécialisés grimpent dans le palier cloud-IA (la poussée entreprise de CoreWeave, les investissements réseau de Lambda) et poussent vers une fiabilité qualité-hyperscaler à des prix sub-hyperscaler. Les hyperscalers réagissent en réduisant les prix listes GPU (les annonces 2026 de Google Cloud ont commencé cela) et en poussant les services IA managés où le coût GPU est intégré dans un produit à plus forte marge. Les deux trajectoires sont mauvaises pour le milieu du marché — les fournisseurs qui ne sont ni les moins chers ni les plus intégrés. Attendez-vous à une consolidation parmi les clouds IA spécialisés de second rang sur 2026-2027.
Questions Fréquemment Posées
Quel est le cloud GPU le moins cher pour un A100 en 2026 ?
Selon la comparaison d’avril 2026 de Thunder Compute, Thunder Compute lui-même offre le tarif A100 80GB le plus bas à 0,78 $/h, suivi par TensorDock à 0,85 $/h. Les prix de la marketplace Vast.ai démarrent à 1,21 $/h mais peuvent baisser davantage sur la capacité spot côté hôte. AWS se situe à 1,85 $/h et Google Cloud à 3,67 $/h — faisant de l’option commodité la moins chère environ 4,7 fois moins que le tarif on-demand de Google Cloud.
Les clouds GPU spécialisés sont-ils suffisamment fiables pour la production ?
Cela dépend de la charge. CoreWeave et Lambda offrent des SLA de niveau entreprise et sont utilisés en production par les principaux laboratoires IA. Les fournisseurs commodité comme Vast.ai et TensorDock conviennent mieux au développement, au fine-tuning et à l’inférence par lots qu’au service production face utilisateur. Le bon patron est de hiérarchiser les charges : production sur hyperscaler ou cloud-IA spécialisé, expérimentation sur fournisseurs commodité.
Pourquoi le prix H100 de Google Cloud est-il bien plus élevé que celui d’AWS ou des fournisseurs spécialisés ?
Le prix liste H100 de 14,19 $/h de Google Cloud reflète une valeur plateforme intégrée (intégration TPU, outillage Vertex AI, réseau GCP, support entreprise) plutôt que le coût GPU brut. Les clients utilisant la pile GCP plus large compensent souvent le tarif avec des remises d’usage engagé et des crédits intégrés. Les clients qui n’ont besoin que d’heures H100 brutes choisissent rationnellement Thunder Compute, Hyperbolic ou TensorDock à un dixième du tarif liste.
Sources et lectures complémentaires
- The Cheapest Cloud GPU Providers — Thunder Compute Blog
- Top Cloud GPU Providers — RunPod Guides
- GPU Cloud Pricing Comparison 2026 — Spheron Network
- Cheapest Cloud GPU Providers — Northflank
- GPU Cloud Comparison 2026: The Real Cost of AI Compute — Nerd Level Tech
- Cloud GPU Pricing Aggregator — GetDeploying















