BCM78900 · TSMC 5 nm · Livré depuis mars 2023

Broadcom Tomahawk 5 Commutateurs Tomahawk 5 Trois plateformes ouvertes 800G, validées sur OcNOS-DC.

Edgecore AIS800-64D, UfiSpace S9321-64E et S9321-64EO : même silicon, même image OcNOS-DC, trois voies d'approvisionnement. Spécifications, règles de décision et surface fonctionnelle OcNOS-DC pour les ingénieurs choisissant un switch Tomahawk 5.

51.2Tbps
Capacité du switch
64×800G
Radix de ports natif
3SKUs
OcNOS-Validated
2ODMs
Edgecore · UfiSpace
5nm
Procédé TSMC N5
01
Les switchs
Matériel ouvert sous Tomahawk 5

Trois plateformes 800G. Deux ODM. Une seule image OcNOS-DC.

Deux conceptions matérielles, quatre SKU. Les quatre sont livrés avec ONIE préchargé et exécutent la même image OcNOS-DC. Les différences portent sur le format (QSFP-DD ou OSFP), le branding (SKU AI-fabric ou SKU general-DC) et l'écosystème d'optiques autour duquel le déploiement est conçu. Chaque carte renvoie à la datasheet complète du fournisseur (PDF, hébergé localement).

Edgecore· famille de plateformes DCS560
Spine de fabric IA

AIS800-64D

Validé sur OcNOS-DC · ONIE préchargé
Ports
64 × QSFP-DD800Breakout : 2×400 / 4×200 / 8×100 (320 ports logiques)
Form
2RU
Power
2× 3000 W AC/DC redondant30 W par cage QSFP-DD
CPU
Intel Xeon D1713NTE
▌ À choisir lorsque

Fabric IA pour cluster GPU. Châssis Edgecore DCS560 avec le cadrage du SKU AI-fabric.

UfiSpace· Famille de plateformes S9321
Spine de fabric IA/ML

S9321-64E

Validé sur OcNOS-DC · ONIE préchargé
Ports
64 × QSFP-DD (200/400/800G)Breakout : 2×400 / 4×200 / 8×100
Form
2RU · 23.72 kg
Power
913 W typiques (sans transceivers)30 W par cage QSFP-DD
CPU
Intel Icelake-D 4 cœurs · 32 Go DDR4
▌ À choisir lorsque

Flux IA/ML volumineux et à faible entropie. UfiSpace commercialise le 64E pour le trafic à dominante AllReduce, où le routage adaptatif TH5 constitue le cœur de la conception.

UfiSpace· Famille de plateformes S9321
DCI 800G · optique cohérente

S9321-64EO

Validé sur OcNOS-DC · ONIE préchargé
Ports
64 × OSFP (200/400/800G)Breakout : 2×400 / 4×200 / 8×100
Form
2RU · 23.74 kg
Power
925 W typique · 200–240 V ACCages OSFP pour optiques à plus forte puissance
CPU
Intel Icelake-D · 32 Go DDR4
▌ À choisir lorsque

Modules cohérents 800G ZR/ZR+ ou autres classes de modules à puissance supérieure. Le format OSFP du 64E : à choisir lorsque les optiques dictent le choix de la cage.

· Comment choisir parmi les quatre

AIS800 vs S9321-64EMême silicium TH5, deux ODM. Edgecore DCS560 (AIS800-64D) vs UfiSpace S9321 : BoM bi-source pour les achats hyperscale et NeoCloud.
QSFP-DD vs OSFPQSFP-DD (S9321-64E + les deux SKU Edgecore) pour l'écosystème optique grand volume. OSFP (S9321-64EO) pour les classes de modules plus consommatrices, dont le 800G ZR/ZR+ cohérent.
Edgecore vs UfiSpaceLes deux sont des ODM de matériel ouvert avec une forte co-conception IP Infusion. Choisissez selon votre relation ODM, votre logistique RMA ou l'économie de la BoM.
Risque du fournisseur uniqueDeux fournisseurs disposant de plateformes TH5 rendent un BoM à double source réaliste, ce qui est important pour les achats hyperscale et NeoCloud.
02
Au cœur du silicium
Ce que vous apporte 51,2 Tbps sur un seul die

Tomahawk 5 : l'ASIC de switching silicon marchand phare de Broadcom.

The BCM78900 est un die monolithique 5 nm unique offrant 51,2 Tbps de capacité de commutation, alimentant 64 ports de 800GbE, 128 de 400G ou 256 de 200G nativement. C'était le premier circuit intégré de commutation marchand 5 nm de Broadcom et le premier produit au monde à prendre en charge le 800GbE au niveau de la cage. 512 voies SerDes fonctionnant en 100G PAM4: le même nombre de lanes que le Tomahawk 4, le double de débit par lane.

Au-delà de la capacité brute, trois choix architecturaux ont fait du TH5 le silicon sous la plupart des fabrics IA de production : un architecture à buffer partagé qui absorbe matériellement les micro-bursts des opérations collectives xCCL (NCCL / RCCL / oneCCL) Routage cognitif (DLB) qui réaffecte les elephant flows dans l'ASIC, et un headroom thermique de 5 nm qui permet aux cages QSFP-DD800 de 30 W de fonctionner sans refroidissement actif par port.

Spécifications vérifiables au regard des données publiques de Broadcom Page produit BCM78900.

ProcessTSMC N5 SeriesStrataXGS BufferPartagé, optimisé RDMA RoutingCognitif · DLB ShippingDepuis mars 2023

· À quoi ressemble 64 × 800G

Die BCM7890051,2 Tbps
512 lanes × 100G PAM4 = 51,2 Tbps. Huit lanes par cage → 800G. L'arithmétique est l'architecture.
Quatre choix de conception qui comptent

Pourquoi le TH5 s'est retrouvé dans presque toutes les fabrics IA ouvertes construites depuis 2024.

Le chiffre phare attire la presse. Ce sont ces quatre choix d'ingénierie qui intéressent réellement les architectes de fabric IA.

PRINCIPLE 01

Même nombre de voies, deux fois la vitesse.

TH5 dispose des mêmes 512 lignes SerDes que TH4, mais les fait fonctionner en 100G PAM4 au lieu de 50G. Le doublement du débit provient de l'accélération de l'infrastructure existante, et non de son extension.

100G PAM4 · 106 Gbps
PRINCIPLE 02

À buffer partagé, non partitionné.

Pools de mémoire de paquets partagés sur les 64 ports, non répartis par port. Les micro-bursts xCCL AllReduce sur un port s'absorbent dans le pool global du fabric au lieu de déclencher du tail-drop. La raison en une ligne pour laquelle le TH5 s'impose sur RoCEv2.

Shared-buffer · RDMA-tuned
PRINCIPLE 03

Routage adaptatif matériel.

Le Cognitive Routing de Broadcom détecte les chemins congestionnés et réaffecte les elephant flows dans l'ASIC : pas d'aller-retour vers un contrôleur, pas de rehachage ECMP. OcNOS-DC l'active sous le nom de DLB Reactive-Path Rebalance.

DLB · flowlet de 64 µs
PRINCIPLE 04

Marge thermique 5 nm.

Le premier circuit de commutation marchand en 5 nm. C'est la réduction du procédé de gravure qui a rendu possibles 30 W par cage QSFP-DD800 sans refroidissement actif par port, y compris pour l'optique 800G haute puissance et le breakout 8×100G.

TSMC N5 · 30 W/port
03
Saut de génération
Tomahawk 4 → Tomahawk 5

Débit par port doublé. Capacité doublée. Même radix de 64 ports.

Positionnement honnête : le TH4 (25.6 Tbps · 64×400G · 7 nm) reste excellent pour les clusters bâtis autour de NIC 400G. Le TH5 justifie sa place en rack lorsque le 800G par port et les primitives AI-fabric comptent l'un comme l'autre.

Capacité de commutation
25,6 Tbps 51,2 Tbps

Doublé pour la même empreinte en rack. Même 2RU, même classe d'enveloppe de puissance.

Vitesse par port
64 × 400G 64 × 800G

Même radix 64 ports sur les plateformes IPI réelles (AS9736-64D → AIS800-64D / S9321). La bande passante par port double, chaque étage Clos transporte donc le double de trafic.

Nœud de processus
7 nm 5 nm

Premier circuit de switch marchand en 5 nm. Marge thermique pour 30 W/port sans refroidissement actif.

SerDes par voie
50G PAM4 100G PAM4

Les mêmes 512 voies, deux fois la vitesse. Le doublement du débit est venu de l'infrastructure existante.

La modernisation brownfield reste propre. La même image OcNOS-DC s'exécute sur les plateformes TH3, TH4 et TH5 : les configurations, l'automatisation et les pipelines gNMI sont reportés. Choisissez TH5 pour le prochain cluster ; conservez TH4 là où il fonctionne déjà.
04
Ce que livre OcNOS-DC
OcNOS-DC sur ce silicon

NOS de niveau opérateur. Réglages par défaut optimisés pour l'IA.

Le Tomahawk 5 dispose du matériel. Le rôle du NOS est de l'exposer, aux opérateurs, aux pipelines de télémétrie, à l'ordonnanceur de cluster, sans les forcer à des acrobaties en CLI autour de celui-ci. OcNOS-DC livre ces primitives comme des objets configurables de premier ordre, avec un état modélisé en YANG.

RoCEv2 sans perte

Architecture à buffer partagé, est-ouest sans perte.

OcNOS-DC livre PFC + ETS + Dynamic ECN préréglés pour les patterns collectifs xCCL. La latence de queue reste bornée sous les micro-bursts AllReduce qui font tomber les fabrics NOS communautaires. Le pool de buffer partagé du TH5 absorbe le trafic synchronisé many-to-one qui ferait du tail-drop sur des chips à buffers partitionnés.

Routage adaptatif

DLB recompose les flowlets en 64 µs.

Les collisions de hash ECMP sous l'effet des elephant flows sont le fléau de la fabric IA. OcNOS-DC active le flowlet rebinding du Cognitive Routing du TH5 pour que le trafic AllReduce se répartisse automatiquement sur chaque chemin de spine.

Watchdog d'interblocage PFC

Per-port, per-priority. Auto-drain.

Détecte les cycles de file en pause avant qu'ils ne bloquent les tâches d'entraînement. Récupération automatique sans intervention de l'opérateur.

Télémétrie en streaming

gNMI on-change, OpenConfig YANG.

Profondeur de buffer, marquages ECN, compteurs de pauses PFC : chaque seuil est un bouton, chaque compteur un chemin de capteur. S'intègre à Prometheus, Grafana, OTel.

Réseau réel

BGP · OSPF · IS-IS · EVPN-VXLAN.

Le spine TH5 est aussi un véritable routeur. Pile Layer 3 complète de niveau opérateur sur le même silicon : exploitez le fabric IA comme le reste de votre réseau, et non comme une boîte noire.

Surface de fonctionnalités validée

215 fonctionnalités réparties sur 8 catégories, issues de la Feature Matrix OcNOS en temps réel.

Routage Layer 3 · L1/L2 · primitives de fabric IA/ML · Multicast · QoS · Sécurité · Matériel · Management. Chaque entrée est vérifiable par plateforme sur la matrice publique.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN SR-MPLS BGP / OSPF / IS-IS gNMI / NETCONF ZTP Prêt pour UEC 1.0
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

Mettez en service un spine TH5 dans le rack avec du provisioning zero-touch. Diffusez chaque compteur vers votre stack d'observabilité. Ajustez chaque seuil via une configuration modélisée en YANG. Aucun script de liaison.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Provider Terraform
Qui construit cette stack

Trois profils opérateurs. Une combinaison silicon + NOS.

Même die TH5, même image OcNOS-DC, trois formulations différentes d'une même question d'architecture : comment faire évoluer le trafic est-ouest lossless sans verrouiller toute la pile sur un seul fournisseur ?

AI Cluster Operator

Fabric d'entraînement jusqu'au plafond de 16k GPU sur silicon ouvert.

« Nous avons besoin de 800G vers le leaf, de RoCEv2 lossless et d'une tail latency qui n'explose pas sous l'AllReduce. Le verrouillage à fournisseur unique n'est pas envisageable. »

Spines TH5 64×800G, RoCEv2 avec DCQCN optimisé pour xCCL, rebinding DLB sub-milliseconde, watchdog anti-deadlock PFC. Même radix de 64 ports que TH4, mais chaque port de spine transporte 800G, divisant par deux le câblage spine-leaf pour une même bande passante agrégée du fabric.

SKU DC · AI Fabric
NeoCloud · GPU-as-a-Service

Fabric multi-tenant, BoM maîtrisée.

« Nos clients choisissent le GPU. Nous ne pouvons pas lier la BoM de notre fabric à leur choix de NIC. Il nous faut un switch que nous puissions acheter auprès de deux fournisseurs au minimum. »

Quatre SKU TH5 validés OcNOS chez deux fournisseurs (Edgecore, UfiSpace). Isolation de tenants VRF-Lite, télémétrie gNMI par tenant, segmentation EVPN-VXLAN. Une seule image NOS, du matériel multi-fournisseurs.

DC · Multi-Tenant
Hyperscaler · Modernisation brownfield

Renouvellement de fabric TH3/TH4 sans remplacement complet.

« Nous avons une fabric TH4 en production. Le prochain cluster d'entraînement nécessite des NIC 800G. Nous ne voulons pas reconcevoir toute la couche NOS pour faire évoluer le silicon. »

La même image OcNOS-DC s'exécute sur les plateformes TH3, TH4 et TH5. Une mise à niveau en brownfield préserve l'intégrité des configurations, de l'automatisation et des pipelines gNMI. Le profil de fabric UEC 1.0 est déjà aligné pour la prochaine génération de NIC.

DC · UEC-Ready
Questions fréquentes

Les questions que les architectes posent vraiment.

Trois plateformes open-hardware réparties sur deux ODM : Edgecore AIS800-64D (châssis DCS560) ainsi que UfiSpace S9321-64E (QSFP-DD) et S9321-64EO (OSFP). Les trois sont livrées avec ONIE préchargé et exécutent la même image OcNOS-DC : même configuration, même surface de fonctionnalités, mêmes points d'ancrage d'automatisation. Deux fournisseurs signifient qu'une BoM à double source est réaliste pour les achats hyperscale et NeoCloud.
QSFP-DD (AIS800-64D et S9321-64E) constitue l'écosystème optique à fort volume, le bon choix par défaut pour le 800G courte portée à l'intérieur du data center. OSFP (S9321-64EO) offre des cages à puissance supérieure pour des classes de modules que QSFP-DD ne peut pas héberger : optiques cohérentes 800G ZR/ZR+ pour le DCI, DR4/DR8 à plus longue portée, et amplificateurs enfichables. Optez pour OSFP lorsque les optiques dictent le choix de la cage ; sinon, QSFP-DD l'emporte sur le coût et l'étendue de l'écosystème.
Le TH4 affiche 25,6 Tbps · 64×400G · 7 nm · 50G PAM4. Le TH5 double la vitesse par port et la capacité de commutation totale au même radix de 64 ports (51,2 Tbps · 64×800G · 5 nm · 100G PAM4). Règle de décision : si le cluster nécessite nativement des ports 800G, ou si chaque port de spine doit acheminer deux fois plus de bande passante (réduisant de moitié le câblage pour un même débit de fabric agrégé), choisissez le TH5. Si la conception repose sur des NIC 400G et une empreinte mono-pod, le TH4 reste excellent et moins cher par port. OcNOS-DC prend en charge les deux avec le même ensemble de fonctionnalités : le renouvellement en brownfield reste simple.
Le TH5 dispose des mécanismes matériels qu'exigent les profils de fabric UEC 1.0 : ECMP par paquet, forwarding compatible packet-spray, ordonnancement en mémoire partagée tolérant la livraison désordonnée. L'UEC lui-même réside principalement dans la NIC ; les fabrics TH5 sous OcNOS-DC transporteront correctement le trafic UEC dès que les NIC UEC seront livrées en volume. RoCEv2 et UEC coexistent sur le même switch : migrez les clusters NIC par NIC, sans remplacement de la fabric.
Sur le TH5, OcNOS-DC est livré pré-réglé pour les fabrics IA : PFC sur L3, ETS, Dynamic ECN, DLB Reactive-Path Rebalance, DLB Random-Flow, PFC Deadlock Detection & Recovery, profils de buffer alignés sur xCCL, DCBX LLDP. Sur le même silicon, il fait également tourner une pile Layer 3 complète de niveau opérateur (BGP, OSPF, IS-IS, SR-MPLS, EVPN-VXLAN) que les piles dédiées à l'IA ne couvrent généralement pas. 215 fonctionnalités validées dans 8 catégories, chaque entrée vérifiable sur la OcNOS Feature Matrix publique.
Edge SP, passerelle cell-site, agrégation sub-1 Tbps. Le radix 64×800G ne justifie pas sa place en rack dans ces rôles. Pour le routage SP, OcNOS valide Broadcom Qumran (Q2C, Q2C+) et Jericho (J2C+) ; pour le leaf DC 100G/400G en empreinte mono-pod, Trident (TD3-X7, TD4) offre une meilleure économie. Positionnement honnête : le TH5 s'impose lorsque le radix 800G et les primitives AI-fabric importent tous les deux, pas quand un seul des deux compte.

Vous concevez une fabric Tomahawk 5 ? Dimensionnons-la ensemble.

Session d'architecture de 30 minutes avec un architecte réseau OcNOS. Apportez votre nombre de GPU, votre vitesse de NIC et votre préférence de tier, et repartez avec une BoM dimensionnée couvrant les quatre SKUs TH5.