Les Annonces Qui Changent l’Équation
Computex 2026 a ouvert le 2 juin avec 1 500 entreprises technologiques réparties sur 6 000 stands sous le thème « AI Together » — une échelle record pour un salon qui a longtemps servi de baromètre des orientations infrastructure. Mais l’histoire qui va façonner la planification de l’architecture d’entreprise pour les 24 prochains mois ne se trouvait pas dans les halls grand public. Elle était dans les annonces d’infrastructure IA à l’échelle du rack portées par Intel, NVIDIA et une startup appelée Vector Core Compute que la plupart des architectes d’entreprise ne connaissaient pas encore.
Le PDG d’Intel, Lip-Bu Tan, est monté sur scène pour annoncer Intel Xeon 6+, premier CPU de centre de données de l’entreprise construit sur le nœud de process Intel 18A. La spécification phare : un rack unique refroidi par liquide délivre 36 864 cœurs CPU dans 32U d’espace à environ 100 kilowatts de puissance par rack — une densité qui replace l’informatique à usage général comme acteur de première classe de l’inférence. En parallèle, Intel, SambaNova et Foxconn ont dévoilé une infrastructure IA rackscale prête pour la production, combinant les processeurs Xeon avec les RDUs (Reconfigurable Dataflow Units) SambaNova SN-50 pour des charges de travail d’inférence visant un meilleur rapport coût-efficacité énergétique.
L’annonce parallèle de NVIDIA est tout aussi structurante. La plateforme Vera Rubin — désormais en pleine production avec une chaîne d’approvisionnement décrite comme deux fois plus importante que Grace Blackwell — embarque un NVIDIA Vera CPU dédié avec 88 cœurs, 1,2 To/s de bande passante LPDDR5X et un fabric on-chip de 3,6 To/s. Le positionnement de NVIDIA est explicite : il s’agit d’« un CPU pour les agents ». Le Vera Rubin NVL72 combine 36 Vera CPUs et 72 GPU Rubin unifiés par NVLink 6 Switch et, associé au Groq 3 LPX, atteint un débit revendiqué de 35x supérieur par watt pour les modèles à mille milliards de paramètres.
Ce que Signifie Réellement l’Inférence Disaggregée
Pour la plupart des architectes d’entreprise, l’« inférence disaggregée » ressemblait à un concept de laboratoire de recherche. Computex 2026 l’a rendue opérationnelle. L’idée centrale est qu’une requête d’inférence sur un grand modèle peut être décomposée en phases de calcul distinctes — préchargement (traitement du prompt en cache clé-valeur), décodage (génération de tokens autoregressive) et orchestration (routage, gestion du contexte, appels d’outils) — chacune avec un profil de calcul radicalement différent, donc mieux servie par une classe de matériel différente.
Le préchargement est lié au GPU : c’est une opération matricielle dense qui bénéficie d’un parallélisme à haut débit. Le décodage est lié à la bande passante mémoire plutôt qu’à la puissance de calcul brute : il lit le cache KV à chaque étape de token, ce qui en fait un meilleur candidat pour des accélérateurs de décodage dédiés comme les RDUs SN40 de SambaNova. L’orchestration — surtout dans les flux agentiques où un agent doit maintenir un état, appeler des outils, évaluer des résultats et boucler — est une logique de branchement sensible à la latence qui s’exécute le plus efficacement sur des CPUs à grand nombre de cœurs avec de grands caches rapides.
Vector Core Compute, créée par Vista Equity Partners et Cambium Capital et opérant un cluster de production depuis Los Angeles, est le premier cas publiquement démontré des trois tiers fonctionnant comme des pools distincts et scalables indépendamment. Sa stack utilise Intel Xeon 6 pour l’orchestration, les RDUs SambaNova SN40 pour le décodage et les GPU NVIDIA Blackwell pour le préchargement. Selon les benchmarks indépendants d’Artificial Analysis, cette configuration a délivré l’inférence d’entreprise la plus rapide sur le modèle MiniMax 2.5. L’analyste de Creative Strategies Ben Bajarin, commentant les annonces Intel, a formulé précisément la transition architecturale : l’inférence agentique modifie le ratio CPU-GPU « d’environ un-CPU-pour-un-GPU (ou moins) » par rapport au modèle d’entraînement.
Le Nemotron 3 Ultra de NVIDIA renforce le dossier économique. Le modèle mixture-of-experts à 550 milliards de paramètres — avec pour premiers utilisateurs Perplexity, Palantir, ServiceNow et CrowdStrike — délivre jusqu’à 5x d’inférence plus rapide et jusqu’à 30 % de réduction des coûts pour les tâches agentiques complexes. Cette réduction de 30 % est atteignable précisément parce que l’inférence disaggregée permet d’adapter chaque tiers indépendamment plutôt que d’acheter de la capacité GPU pour chaque phase de charge de travail.
Publicité
Ce que les Architectes Cloud Doivent Faire
Les annonces de Computex 2026 ne sont pas des signaux de planification future — elles décrivent des systèmes de production opérationnels aujourd’hui. Les architectes cloud qui traitent cela comme un élément à surveiller se retrouveront à spécifier des clusters GPU-intensifs architecturalement inadaptés aux charges de travail agentiques que ces clusters devront exécuter dans 12 à 18 mois.
1. Auditer Votre Cluster d’Inférence Actuel pour la Préparation à la Séparation des Phases
Avant toute décision d’approvisionnement, profilez vos charges de travail d’inférence existantes pour déterminer quelle proportion du temps de calcul est consacrée respectivement au préchargement, au décodage et à l’orchestration. La plupart des équipes IA d’entreprise exécutant une inférence GPU monolithique n’ont jamais effectué cette mesure — elles ont acheté de la capacité GPU selon des hypothèses issues de l’ère d’entraînement et l’ont appliquée uniformément à l’inférence. Les outils comme les microservices NIM de NVIDIA et la prise en charge récente de la disaggregation par vLLM exposent la latence et le débit par phase, rendant l’audit réalisable sans instrumentation personnalisée. Les résultats de production de Vector Core Compute — meilleure inférence sur MiniMax 2.5 confirmée par Artificial Analysis — démontrent que les clusters à phases séparées surpassent les déploiements GPU monolithiques sur les tâches agentiques sensibles à la latence, même avant de considérer le coût par token. Si votre cluster actuel exécute des charges de travail agentiques (agents appelant des outils, chaînes de raisonnement multi-étapes, boucles de récupération à long contexte), cet audit est déjà en retard.
2. Évaluer les Accélérateurs de Décodage Dédiés Avant le Prochain Cycle d’Approvisionnement GPU
Les RDUs SambaNova SN40 et SN-50 annoncés à Computex sont déjà en déploiement de production avec Vector Core Compute et dans l’infrastructure rackscale Intel-SambaNova-Foxconn. Leur rôle dans une stack disaggregée est spécifique : ils servent les opérations de phase de décodage où la bande passante mémoire par token prime sur les FLOPS bruts. C’est la phase de charge de travail que les clusters GPU d’entreprise gèrent le plus mal — un GPU à 40 000 dollars délivrant 60 téraflops est significativement sous-utilisé lors du décodage séquentiel car le goulot d’étranglement est la bande passante mémoire, pas le débit arithmétique. Pour les organisations exécutant de l’inférence à grande échelle (centaines de sessions simultanées), l’insertion d’un tiers d’accélérateur de décodage peut réduire les besoins en capacité GPU pour le même débit, diminuant directement le coût par token. Les annonces de Computex confirment que ce n’est pas expérimental : les systèmes rackscale fabriqués par Foxconn avec cette topologie sont en production.
3. Repenser Votre Stratégie d’Allocation CPU pour l’Orchestration Agentique
Le NVIDIA Vera CPU — 88 cœurs, 1,2 To/s de bande passante, « un CPU pour les agents » — est l’annonce architecturalement la plus significative de Computex 2026 pour les équipes infrastructure d’entreprise. Il signale que NVIDIA lui-même a reconnu que les CPUs ne sont pas périphériques aux stacks IA : ils sont porteurs de charge pour la phase d’orchestration de l’inférence agentique. Pour les équipes d’entreprise ne fonctionnant pas encore avec NVIDIA Vera Rubin, l’implication est immédiate : les CPUs à grand nombre de cœurs de la génération actuelle (Intel Xeon 6, AMD EPYC) doivent être inclus dans les conceptions de clusters d’inférence avec une allocation délibérée pour l’orchestration des agents, et non traités comme une capacité résiduelle après le provisionnement GPU. L’ASUS XA NR1I-E12L — un système à refroidissement hybride combinant NVIDIA HGX Rubin NVL8 avec Intel Xeon 6 — est déjà commercialisé comme SKU entreprise encodant cette association. Lors de la spécification de nouveaux nœuds d’inférence, planifiez les ratios CPU-GPU en fonction du mix de charges de travail agentiques : plus votre charge se rapproche du pur agentique (appels d’outils, multi-tour, long contexte), plus votre ratio devrait tendre vers 1:1.
Où Va l’Infrastructure IA d’Entreprise à Partir d’Ici
Les annonces de Computex 2026 closent un récit qui se construisait depuis fin 2024 : la monoculture GPU de l’ère d’entraînement n’est pas la bonne architecture pour l’inférence, et le marché de l’inférence est suffisamment grand pour justifier des alternatives conçues à cet effet. Les chiffres de Computex rendent cela concret. Le Vera Rubin NVL72 de NVIDIA réduit le temps d’assemblage des plateaux de calcul de deux heures à cinq minutes — un gain d’efficacité opérationnelle qui reflète une chaîne d’approvisionnement arrivée à maturité, non du matériel prototype. Le standard MGX d’usine IA modulaire, avec 150+ partenaires de l’écosystème taïwanais dans 350+ usines de 30 pays, signifie que les composants d’inférence disaggregée sont sur une trajectoire d’approvisionnement et d’intégration prévisible.
La direction est claire : les deux prochaines années verront la stack d’inférence se stratifier en tiers spécialisés. Les fournisseurs de GPU le savent — le propre Vera CPU de NVIDIA est un aveu que les CPUs appartiennent au centre de l’infrastructure IA agentique, et non à sa périphérie. Pour les architectes cloud d’entreprise, la fenêtre pour une planification ordonnée est maintenant. Les clusters d’inférence disaggregée requièrent un approvisionnement, un réseau (NVLink 6, Spectrum-X Ethernet Photonics), un refroidissement (100 % liquide à 45°C d’entrée pour les configurations haute densité) et une orchestration logicielle (NVIDIA OpenShell, NemoClaw) différents des racks GPU que la plupart des entreprises exploitent actuellement. Les organisations qui commencent la refonte architecturale en 2026 exécuteront des stacks d’inférence agentique optimisées en 2027.
Questions Fréquentes
Qu’est-ce que l’inférence disaggregée et pourquoi est-elle importante pour l’IA d’entreprise ?
L’inférence disaggregée divise le processus d’inférence d’un grand modèle de langage en phases de calcul distinctes — préchargement, décodage et orchestration — chacune s’exécutant sur du matériel optimisé pour les exigences spécifiques de cette phase. Elle est importante pour les entreprises car les clusters GPU monolithiques, conçus pour l’entraînement, sont significativement sur-provisionnés et sous-utilisés pendant les phases de décodage et d’orchestration. La disaggregation permet à chaque tiers de scaler indépendamment, réduisant le coût par token et améliorant la latence pour les charges de travail IA agentiques impliquant des appels d’outils, des raisonnements multi-étapes et des récupérations à long contexte.
Que signifie le ratio CPU-GPU de 1:1 en pratique ?
Le ratio 1:1, référencé par l’analyste de Creative Strategies Ben Bajarin dans le contexte des annonces Intel à Computex, reflète l’équilibre nécessaire pour l’inférence agentique par opposition à l’entraînement. Dans l’entraînement, les GPU dominent car la charge de travail est constituée d’opérations matricielles denses bénéficiant d’un parallélisme GPU maximal. Dans l’inférence agentique, l’orchestration persistante, la gestion d’état et la logique de branchement consomment des cycles CPU significatifs — faisant évoluer le ratio matériel optimal vers la parité. En pratique, cela signifie que les nouvelles conceptions de clusters d’inférence devraient allouer de la capacité CPU à un niveau comparable à la capacité GPU, et non traiter les CPUs comme des nœuds de gestion accessoires.
Quand une entreprise devrait-elle commencer à planifier l’adoption de l’inférence disaggregée ?
Maintenant, selon les données de Computex 2026. Le cluster de production de Vector Core Compute délivre déjà des performances d’inférence de premier plan sur MiniMax 2.5 grâce à une stack disaggregée. Les SKUs serveurs entreprise ASUS combinant Intel Xeon 6 et NVIDIA Rubin sont disponibles. Le cycle de planification pour l’infrastructure de centre de données d’entreprise s’étend généralement sur 18 à 24 mois, ce qui signifie que les décisions d’approvisionnement prises fin 2026 exécuteront des charges de travail agentiques en 2028. Attendre une maturation technologique supplémentaire risque de verrouiller des topologies GPU-uniquement qui sont déjà architecturalement sous-optimales pour l’IA agentique.









