BCM56996 · TSMC 7 nm · Deep buffer HBM on-package

Broadcom Tomahawk 4 Commutateur Tomahawk 4 25,6 Tbps · 64 × 400G · la génération 400G à deep buffer.

Une plateforme ouverte validée sur OcNOS-DC : Edgecore AS9736-64D. La variante deep-buffer à HBM du Tomahawk 4 : le silicon pour les fabrics IA 400G où la marge de buffer compte plus que le nombre de ports 800G, et pour les rôles DCI/agrégation où les rafales sont profondes.

25.6Tbps
Capacité du switch
64×400G
Radix de ports natif
~70GB
Buffer profond HBM
7nm
Procédé TSMC N7
50GPAM4
SerDes par voie
01
Le switch
Matériel ouvert sous Tomahawk 4

Une plateforme. Un objectif : du 400G deep-buffer.

Edgecore AS9736-64D : un commutateur 2RU 64×400G QSFP-DD basé sur le Tomahawk 4 BCM56996 à buffers profonds. ONIE préchargé, exécute la même image OcNOS-DC que les spines TH5 et les leaves TD4. Une plateforme validée pour une niche architecturale que le reste du portefeuille ne couvre pas.

Edgecore· famille de plateformes DCS520
Fabric IA 400G à deep-buffer · DCI

AS9736-64D

Validé sur OcNOS-DC · ONIE préchargé
Ports
64 × QSFP-DD (400G)Breakout : 2×200 / 4×100 / 8×50 (jusqu'à 256 ports logiques)
Form
2RU · 21.5 kg
Power
~2100 W typique · alimentation AC redondante hot-swap~33 W par cage QSFP-DD
CPU
Intel Xeon classe D · 4 Go de RAM
▌ À choisir lorsque

Fabric IA 400G pour les clusters GPU à pod unique où le deep buffer compte plus que les ports 800G, et pour les rôles d'agrégation 400G / DCI où la HBM absorbe les rafales que les commutateurs à plus petit buffer laissent tomber.

Vous êtes ici · 25,6 Tbps

Tomahawk 4: 64 × 400G

À choisir lorsque des NICs 400G ancrent le cluster, qu'une marge de deep-buffer figure sur la liste des exigences, ou que le boîtier doit absorber des rafales DCI/agrégation qu'un chip à buffer plus réduit laisserait tomber.

Passez à la vitesse supérieure · 51.2 Tbps

Tomahawk 5: 64 × 800G

À choisir lorsque le cluster a besoin de ports 800G nativement, ou lorsque le 800G par port à la même densité de 64 ports justifie le surcoût par port. Page Tomahawk 5 →

Boîtier plus compact · 12,8 Tbps

Trident 4: DC leaf

À privilégier lorsque le rôle est leaf DC en 100G/400G avec une enveloppe de capacité plus réduite. Famille de puces différente, même image OcNOS-DC, coût par port bien inférieur. (Page Trident 4 à venir.)

02
Au cœur du silicium
Ce que le deep buffer adossé à la HBM vous apporte

Tomahawk 4, et la variante qui a placé la HBM sur le package.

Tomahawk 4 standard (BCM56990) est un switch de 25,6 Tbps avec buffer partagé sur puce de l'ordre de quelques centaines de mégaoctets : la même classe que le TH3 et le TH5. La variante HBM, BCM56996, la puce de l'AS9736-64D, ajoute High-Bandwidth Memory intégrée au package comme pool d'extension à buffers profonds. Environ 70 Go de buffer rattachée à la bande passante HBM, adressable par le même pipeline de forwarding.

Pourquoi cela compte : le RoCEv2 sans perte repose normalement sur le PFC (priority flow control) qui propage la contre-pression en amont lorsqu'une file se remplit. Avec la marge de la HBM, les micro-rafales transitoires d'AllReduce et la congestion des flux longs DCI sont absorbées dans le pool profond au lieu de déclencher des tempêtes de pauses. Le PFC reste armé, mais il se déclenche bien moins souvent, et lorsqu'il le fait, les cycles d'interblocage ont le temps de se résoudre avant que le watchdog ne les purge.

Spécifications recoupées avec celles de Broadcom Page produit BCM56990/56996 et la matrice de fonctionnalités OcNOS en direct.

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM RoutingCognitif · DLB ShippingDepuis 2020

· À quoi ressemble 64 × 400G

Die BCM5699625,6 Tbps
+ On-package HBMdeep buffer de ~70 Go
512 lanes × 50G PAM4 = 25,6 Tbps. Huit lanes par cage → 400G. L'extension de buffer constitue le facteur différenciant.
Quatre choix de conception qui comptent

Pourquoi le TH4 reste pertinent dans la conversation fabric IA même après l'arrivée du TH5.

Trois de ces quatre choix sont partagés avec TH3 et TH5. L'extension HBM est celle qui rend la variante BCM56996 unique.

PRINCIPLE 02

SerDes 50G PAM4 : 512 voies.

Le même nombre de lanes que le TH3 (50G NRZ) et le TH5 (100G PAM4). Le TH4 se situe à la génération intermédiaire. Huit lanes par cage QSFP-DD offrent du 400G natif ; le breakout s'étend au 200G/100G/50G pour les déploiements à vitesses mixtes.

512 lanes · 50G PAM4
PRINCIPLE 03

Routage adaptatif matériel.

Broadcom Cognitive Routing : équilibrage de charge flowlet-aware dans l'ASIC, sans aller-retour vers un contrôleur. OcNOS-DC l'active sous forme de DLB Reactive-Path Rebalance. Avec la marge de HBM, le rebinding sur collision de hash et l'absorption de rafales fonctionnent de concert.

DLB · réaffectation des flowlets
PRINCIPLE 04

Silicon mature en 7 nm.

Livré en volume depuis 2020 : plus de quatre ans de corrections de bugs, un comportement prévisible et une enveloppe thermique connue. Pour une mise à niveau en brownfield d'un fabric TH3, c'est le choix sans surprise et prévisible.

TSMC N7 · livré depuis 4+ ans
03
Saut de génération
Tomahawk 3 → Tomahawk 4

Capacité doublée. Procédé réduit. HBM intégrée.

Le TH3 (12,8 Tbps · 32×400G · 16 nm · 25G NRZ) était la pièce maîtresse de l'ère pré-fabric IA. Le TH4 a doublé sa fiche technique, et la variante BCM56996 a ajouté la subtilité architecturale qui reste encore son élément différenciateur.

Capacité de commutation
12,8 Tbps 25,6 Tbps

Doublé sur la même empreinte de rack. 2RU est resté 2RU.

Radix de ports natif
32 × 400G 64 × 400G

Deux fois plus de ports à la même vitesse : s'intègre aux conceptions Clos sans niveau supplémentaire.

Nœud de processus
16 nm 7 nm

Réduction en deux étapes. Marge de puissance par port pour les optiques 400G sans refroidissement actif par port.

SerDes par voie
25G NRZ 50G PAM4

Les mêmes 512 voies, deux fois la vitesse par voie. Le doublement est venu de l'infrastructure existante.

Le prochain saut : TH5 double à nouveau pour atteindre 51,2 Tbps et 64 × 800G avec des SerDes 100G PAM4, mais TH5 est revenu à un shared-buffer standard, faisant du deep buffer HBM de TH4G une fonctionnalité d'une seule génération. Page Tomahawk 5 →
04
Ce que livre OcNOS-DC
OcNOS-DC sur ce silicon

Même image que le spine TH5. Profils de buffer HBM-aware.

OcNOS-DC s'exécute de manière identique sur les plateformes TH3, TH4 et TH5. Sur le TH4, il fait une chose en plus : il mappe les profils DCQCN des opérations collectives xCCL (NCCL / RCCL / oneCCL) sur le pool d'extension HBM, de sorte que RoCEv2 sans perte traverse les rafales qu'un fabric sans deep-buffer devrait gérer par pause PFC.

RoCEv2 sans perte · adossé à la HBM

PFC + ECN préréglés pour xCCL, et le pool profond absorbe le reste.

Configuration PFC + ETS + Dynamic ECN standard, ainsi que des profils de buffer adaptés à la HBM. La plupart des micro-bursts AllReduce n'atteignent jamais le seuil PFC, car la marge HBM les absorbe. La latence de queue reste bornée sous le trafic synchronisé many-to-one qui met à terre les fabrics à buffer peu profond.

Routage adaptatif

Le DLB réassocie les flowlets dans l'ASIC.

Le Cognitive Routing sur TH4 exécute le même DLB Reactive-Path Rebalance qu'OcNOS-DC fournit sur TH5. La combinaison du headroom HBM et du rebinding de flowlets gère la collision de hash ECMP et l'absorption de rafales dans la même passe de forwarding.

Watchdog d'interblocage PFC

Per-port, per-priority. Auto-drain.

Détecte les cycles de files en pause avant qu'ils ne bloquent les tâches d'entraînement. Avec le headroom HBM, de nombreux deadlocks potentiels ne se forment jamais, mais le watchdog reste armé.

Télémétrie en streaming

Occupation HBM sur le lien.

gNMI on-change pour la profondeur de buffer (on-die and extension HBM), marquages ECN, comptes de pauses PFC. Une visibilité sur le pool profond, pas une boîte noire.

Réseau réel

BGP · OSPF · IS-IS · EVPN-VXLAN.

Pile Layer 3 complète de niveau opérateur sur le même silicon. Le spine TH4 est aussi un véritable routeur : exploitez-le comme le reste de votre réseau, et non comme une boîte noire.

Surface de fonctionnalités validée

La même image OcNOS-DC que le TH5 : chaque fonctionnalité s'active là où le silicon le permet.

Routage Layer 3 · L1/L2 · primitives de fabric IA · Multicast · QoS · sécurité · matériel · gestion. Validation par plateforme visible sur la matrice publique.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP Télémétrie HBM
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

Mettez en service l'AS9736-64D dans le rack grâce au provisionnement zero-touch. Diffusez chaque compteur, y compris l'occupation HBM, vers votre stack d'observabilité. Ajustez chaque seuil via une configuration modélisée en YANG. Aucun script de liaison.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Provider Terraform
Qui construit cette stack

Trois profils opérateurs. Un seul silicon pour les trois.

La combinaison 64×400G + HBM place l'AS9736-64D dans trois conversations différentes : AI fabric, DCI et renouvellement brownfield. Même commutateur, cadrage différent d'une même question architecturale.

AI Cluster Operator · pod 400G NIC

Fabric de NIC 400G sans payer pour du silicon 800G.

« Notre cluster est équipé de NIC 400G. Nous n'avons pas encore besoin de ports 800G, mais nous avons besoin du deep buffer. L'AllReduce sur des fabrics à shallow-buffer ne cesse de déclencher le PFC. »

Spines TH4 sur AS9736-64D, RoCEv2 avec DCQCN réglé pour xCCL, profils de buffer adaptés au HBM, rebinding DLB sub-milliseconde. Clos à trois niveaux pour le scale-out multi-pod, même image OcNOS-DC que le déploiement TH5 voisin.

DC · Deep-Buffer Spine
DCI · Architecte de deep-aggregation

Congestion des flux longs sans perte de paquets.

« Notre boîtier DCI doit absorber les rafales des flux TCP inter-DC qui durent plusieurs minutes. Les switches standards en perdent. Les routeurs châssis coûtent dix fois ce que cela devrait coûter. »

Pool d'extension HBM d'environ 70 Go dimensionné pour l'absorption des rafales de flux longs. EVPN-VXLAN inter-DC, pile L3 complète, télémétrie gNMI par locataire. Matériel ouvert à l'économie du silicon marchand.

DC · DCI · Agrégation
Brownfield · renouvellement TH3

Capacité doublée, même modèle opérationnel.

« Nous avons une fabric TH3 en production. Il nous faut davantage de capacité, mais nous ne voulons pas reconcevoir la couche NOS ni reformer l'équipe réseau. »

La même image OcNOS-DC tourne sur TH3 et TH4. La modernisation brownfield conserve intacts les configs, l'automatisation et les pipelines gNMI. La capacité double. Le modèle d'exploitation reste.

DC · Renouvellement
Questions fréquentes

Les questions que les architectes posent vraiment.

Une seule plateforme : la Edgecore AS9736-64D, un switch 2RU 64×400G QSFP-DD construit sur le Broadcom BCM56996 (Tomahawk 4 avec deep buffer HBM intégré au boîtier). Livré préchargé en ONIE, il exécute la même image OcNOS-DC que les spines TH5 et les leaves TD4. L'ensemble de plateformes validées se limite à un seul switch, mais c'est le switch 400G à deep buffer du portfolio OcNOS.
Deux raisons. Premièrement, le BCM56996 dispose de deep buffer HBM on-package. Le TH5 est revenu à une architecture standard à buffer partagé. Pour les rôles d'agrégation 400G et DCI où les flux s'accumulent profondément dans les files, le TH4 absorbe des rafales qu'un TH5 (ou TH3) laisse tomber. Ensuite, à l'échelle d'un seul pod sur des NIC 400G, une fabric TH4 revient moins cher par port qu'un TH5 sans compromis architectural : un Clos à trois niveaux tient toujours, et la surface de fonctionnalités OcNOS-DC est identique.
La HBM embarquée sur le package étend le buffer de paquets effectif de la puce de quelques centaines de mégaoctets à environ 70 Go. Dans une fabric IA : les micro-rafales AllReduce peuvent être absorbées dans la HBM plutôt que de déclencher du tail-drop ou des tempêtes de pause PFC. Dans un rôle DCI/agrégation : les flux TCP de longue durée survivent à une congestion transitoire sans retransmissions. Cela fait passer la promesse du sans perte de « PFC + ECN + réglage soigné » to « PFC + ECN + headroom qui masquent la plupart des modes de défaillance. »
Choisissez le TH5 (AIS800-64D) lorsque des ports 800G figurent dans la BoM, ou que vous souhaitez du 800G par port avec le même radix de 64 ports (ce qui réduit de moitié le câblage spine-leaf pour une bande passante agrégée identique). Choisissez le TH4 (AS9736-64D) lorsque des cartes réseau 400G constituent le socle du cluster, lorsque le deep buffer est le choix architectural (DCI, agrégation profonde, fabrics à flux mixtes), ou lorsque le budget par port exclut le silicon 800G. Les deux exécutent la même image OcNOS-DC. Les combiner au sein d'une fabric multi-niveaux est un déploiement pris en charge.
Oui. Le TH4 possède les mêmes primitives de Cognitive Routing que le TH5 : un load-balancing tenant compte des flowlets dans l'ASIC, sans aller-retour vers un contrôleur. OcNOS-DC active cela sous le nom de DLB Reactive-Path Rebalance. Combiné au deep buffer HBM, un fabric TH4 résout les collisions de hachage des elephant flows and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
Capacité doublée à deux reprises (12.8 → 25.6 → 51.2 Tbps). Finesse de gravure réduite à deux reprises (16 → 7 → 5 nm). SerDes par voie doublé à deux reprises (25G NRZ → 50G PAM4 → 100G PAM4). Le nombre de voies est resté à 512 sur toute la famille. Architecture de buffer : TH3 en mémoire partagée standard, TH4 a ajouté la HBM (variante BCM56996 uniquement), TH5 est revenu à la mémoire partagée standard. OcNOS-DC prend en charge les trois avec une seule et même image : la modernisation brownfield préserve l'intégrité des configurations et des pipelines gNMI.
Le radix 64×400G est surdimensionné pour une périphérie SP ou une passerelle de site cellulaire en dessous de 1 Tbps : choisissez plutôt Qumran (Q2C, Q2C+) ou Qumran 2A/2U pour ces cas. Pour du leaf DC pur en 100G/25G, c'est aussi la mauvaise forme : choisissez Trident 4 (TD4) à 12,8 Tbps. Et si le cluster a réellement besoin de ports 800G dès aujourd'hui, le TH4 impose un niveau Clos supplémentaire, alors choisissez TH5. Le point fort du TH4 est : « le 400G suffit, le deep buffer est requis ».

Vous concevez une fabric 400G à deep buffer ? Dimensionnons-la ensemble.

Session d'architecture de 30 minutes avec un architecte réseau OcNOS. Apportez votre nombre de GPU, la vitesse de vos NIC et vos attentes en matière de patterns de rafales, et repartez avec une BoM dimensionnée autour de l'AS9736-64D et un plan de placement face aux alternatives TH5 / TD4.