Il ne s’agit pas d’une simple mise à jour incrémentale. Le T100 permet de passer de topologies réseau multi-niveaux à des architectures plates à fort radix, en éliminant des couches entières d’infrastructure que les hyperscaleurs ont été contraints de construire pour contourner les limites de bande passante de la génération précédente de silicon. Les implications se répercutent de l’architecture des data centers jusqu’aux budgets électriques des racks et aux plans d’investissement.
Pourquoi la bande passante réseau est devenue un problème IA
Lorsque les clusters GPU se comptaient en centaines de cartes, les réseaux Ethernet conventionnels pouvaient suivre le rythme. Passé le cap des dizaines de milliers d’accélérateurs — le minimum requis pour l’entraînement de modèles frontière aujourd’hui — l’arithmétique change fondamentalement. Les opérations de communication collective comme AllReduce, qui synchronisent les gradients sur l’ensemble des GPU d’un run d’entraînement, saturent toute la bande passante disponible. Un GPU plus rapide sans interconnexion plus rapide se retrouve simplement en attente.
La dimension électrique aggrave le problème. Les racks IA modernes approchent 120 kW de consommation. Les composants réseau — switches, émetteurs-récepteurs, câbles — représentent déjà 15 à 25 % de la puissance totale du rack dans les déploiements GPU denses. Chaque watt économisé au niveau de la couche de commutation est un watt disponible pour le calcul, ou un watt qui n’a pas besoin d’être provisionné dans l’infrastructure de refroidissement.
La génération précédente de silicon de commutation, y compris les solutions concurrentes à des niveaux de bande passante inférieurs, intégrait des décisions architecturales prises pour le trafic cloud généraliste — des décisions qui ajoutaient de la consommation et de la surface de puce sans bénéficier aux charges de travail IA. Le Teralynx T100 a été conçu sans cet héritage, en utilisant une puce monolithique en 3nm pour délivrer 102,4 Tbps sous une enveloppe électrique typique inférieure à 1 000 W.
Ce que signifient vraiment 102,4 Tbps en 3nm
Le chiffre phare — 102,4 Tbps de bande passante agrégée — représente huit fois le point d’entrée de 12,8 Tbps de la gamme de produits Teralynx et environ le double de ce qu’offrait la génération précédente de silicon de commutation haut de gamme à grande échelle. Atteindre ce résultat sur une seule puce monolithique, plutôt que par agrégation de chiplets, importe pour la latence : la surcharge de communication inter-puces est éliminée, et le chemin de décision de commutation reste entièrement sur un seul morceau de silicon.
Le nœud de process 3nm est à l’origine d’une grande partie du gain d’efficacité énergétique. Des transistors plus petits commutent plus vite à des tensions plus basses, et l’architecture SerDes basse consommation avancée de Marvell — les liaisons série haute vitesse qui transportent les données vers et depuis la puce — bénéficie directement de la réduction du nœud. Le résultat est une consommation électrique jusqu’à 25 % inférieure à celle des solutions concurrentes dans les niveaux de bande passante comparables.
La flexibilité des ports est un levier architectural clé. Le T100 prend en charge des configurations à radix jusqu’à 512 ports, ce qui signifie qu’un seul switch peut connecter directement des centaines de serveurs ou de nœuds GPU sans couche d’agrégation intermédiaire. Dans les conceptions de data centers traditionnelles à trois niveaux (accès / agrégation / cœur), l’élimination d’un niveau supprime à la fois le coût d’investissement et un saut de latence supplémentaire sur chaque paquet qui traverse les limites du tissu.
Trois configurations de boîtier répondent à différents scénarios de déploiement. Le BGA (ball grid array) est l’approche conventionnelle, adaptée à l’assemblage PCB standard. Le co-packaged copper (CPC) resserre la connexion électrique entre l’ASIC et les assemblages de câbles cuivre, réduisant les pertes de signal à très haut débit. Les optiques co-packagées (CPO) intègrent directement les émetteurs-récepteurs optiques avec la puce de commutation, éliminant complètement le module enfichable et réduisant significativement la puissance des interconnexions optiques — une option critique à mesure que les opérateurs de data centers planifient pour des vitesses de port de 800G et 1,6T.
Publicité
Le paysage concurrentiel : rattrapant Broadcom et Cisco
Marvell n’opère pas dans le vide. La série Tomahawk de Broadcom domine le silicon de commutation marchand depuis plus d’une décennie, et le Tomahawk 5 — opérant à 51,2 Tbps — établissait la précédente référence en termes de bande passante de commutation prête pour la production. Les 102,4 Tbps du T100 doublent ce chiffre et le font sur un nœud de process plus récent.
L’architecture Silicon One de Cisco, développée pour les propres produits de routage et commutation de Cisco mais également licenciée à des constructeurs de systèmes tiers, est en compétition sur le haut de gamme avec la latence et la programmabilité comme différenciateurs. Aucune de ces alternatives ne propose actuellement un produit en silicon marchand à 102,4 Tbps.
Le positionnement « conçu pour l’IA » est une attaque directe contre les décisions architecturales héritées intégrées dans les ASIC de commutation généralistes. Des fonctionnalités comme le contrôle de congestion AI-natif et la télémétrie intégrée — qui expose les statistiques d’utilisation en temps réel et au niveau des flux — sont de plus en plus nécessaires à mesure que les opérateurs cherchent à maximiser l’utilisation des GPU dans les clusters d’entraînement où un seul événement de congestion peut bloquer des milliers d’accélérateurs simultanément.
Ce que les architectes et opérateurs d’infrastructure devraient faire
1. Auditer les budgets électriques actuels du tissu réseau par rapport aux projections de charges IA
Avant le prochain cycle de renouvellement, cartographiez le pourcentage de puissance de rack consommé par l’infrastructure de commutation aujourd’hui et modélisez ce que ce chiffre devient à mesure que la densité GPU augmente. Si les composants réseau consomment déjà 20 % ou plus de la puissance du rack, l’amélioration d’efficacité de 25 % du T100 modifie substantiellement le calcul du coût total de possession — à la fois en dépenses directes d’électricité et dans l’infrastructure de refroidissement nécessaire pour gérer la dissipation thermique.
2. Évaluer la simplification de la topologie comme objectif de conception de premier ordre
Le radix de 512 ports du T100 rend viables les topologies à deux niveaux (spine-leaf sans agrégation séparée) et même les topologies plates à un seul niveau à des échelles qui nécessitaient auparavant trois niveaux. Modélisez les options de topologie pour la taille de cluster cible : moins de niveaux signifie moins de sauts de commutation, une latence est-ouest inférieure, moins d’émetteurs-récepteurs optiques ou d’assemblages de câbles, et une gestion réseau simplifiée. Les économies d’investissement et opérationnelles résultant de l’élimination d’un niveau de commutation peuvent être substantielles.
3. Planifier l’adoption des optiques co-packagées dans la feuille de route d’infrastructure
L’intégration CPO n’est pas une option de niche — c’est la direction d’emballage vers laquelle convergent les déploiements 800G et 1,6T à mesure que la puissance et le coût des émetteurs-récepteurs enfichables deviennent prohibitifs à très haute densité de ports. Les équipes d’infrastructure devraient commencer dès maintenant à s’engager avec les intégrateurs de systèmes et les ODM sur les plates-formes de switches basées sur CPO, évaluer les implications pour le câblage (le CPO nécessite des assemblages terminés en usine plutôt que des modules enfichables sur le terrain), et inclure les délais de qualification CPO dans la feuille de route pour toute nouvelle construction qui fonctionnera au-delà de 2027.
La vue d’ensemble : Ethernet se rapproche d’InfiniBand
Le Teralynx T100 arrive à un moment où Ethernet et InfiniBand sont en concurrence réelle pour les interconnexions de clusters IA pour la première fois depuis des années. NVLink et InfiniBand de NVIDIA ont dominé les conceptions de supercalculateurs IA les plus performants, mais l’économie d’échelle et la disponibilité universelle des outils Ethernet donnent à Ethernet un avantage structurel dans les grands déploiements cloud.
Les améliorations de protocole UEC et ESUN que le T100 prend en charge sont le pont technique qui comble l’écart comportemental restant. Le transfert sans perte, la latence inférieure à la microseconde sous charge et le routage adaptatif — autrefois le domaine exclusif d’InfiniBand — sont désormais réalisables sur du matériel Ethernet standard. Si le T100 réussit son échantillonnage et atteint la production à grande échelle fin 2026, il accélérera le déplacement des interconnexions propriétaires dans l’infrastructure IA des hyperscaleurs qui entraîne les modèles utilisés par des centaines de millions de personnes.
Questions Fréquemment Posées
Q : En quoi le Teralynx T100 diffère-t-il des switches de data center standard ?
Les switches Ethernet standard sont conçus pour le trafic cloud généraliste est-ouest et nord-sud. Le T100 est conçu spécifiquement pour les charges de travail d’entraînement et d’inférence IA : son contrôle de congestion est ajusté pour les schémas de communication collective en rafale et synchronisés que l’entraînement GPU génère, sa télémétrie est conçue pour exposer l’impact sur l’utilisation des GPU des événements réseau, et son radix de 512 ports permet des topologies plus plates qui réduisent les sauts de latence entre accélérateurs.
Q : Quand le Teralynx T100 sera-t-il disponible dans des systèmes de production ?
Marvell a commencé à distribuer des échantillons du T100 aux clients au T2 2026 (annoncé le 1er juin 2026). L’échantillonnage de silicon de production est généralement suivi d’une période d’intégration de 6 à 12 mois pendant laquelle les fournisseurs de systèmes construisent des plates-formes de switches basées sur le T100 et les qualifient. Les déploiements de production chez les hyperscaleurs sont donc les plus probables dans la fenêtre H2 2026 à H1 2027.
Q : Qu’est-ce que les optiques co-packagées et pourquoi sont-elles importantes pour les switches IA ?
Les optiques co-packagées (CPO) intègrent des composants d’émetteurs-récepteurs optiques directement sur le boîtier du switch aux côtés de l’ASIC, remplaçant les modules QSFP enfichables qui connectent les ports du switch aux câbles fibre dans les conceptions conventionnelles. À des vitesses de port de 800G et au-delà, les modules enfichables consomment une puissance substantielle et introduisent des défis d’intégrité du signal. Le CPO élimine l’interface électrique entre la puce et l’émetteur-récepteur, réduisant significativement la puissance des composants optiques et permettant des configurations de ports plus denses et plus rapides.
Sources et lectures complémentaires
- complémentaires
- Marvell annonce un switch AI cloud 102,4 Tbps — Marvell Newsroom
- Marvell annonce la disponibilité du premier switch 102,4 Tbps — Relations investisseurs Marvell
- Marvell dévoile un switch IA 102,4 Tbps — Advanced Packaging News
- Marvell annonce la disponibilité du premier switch 102,4 Tbps — Investing News Network











