BCM56996 · TSMC 7 nm · Deep buffer HBM on-package

Broadcom Tomahawk 4 Commutateur Tomahawk 4 25,6 Tbps · 64 × 400G · la génération 400G à deep buffer.

Q: Quel switch exécutant OcNOS-DC est validé sur Tomahawk 4 ?

Une seule plateforme : l'Edgecore AS9736-64D, un switch 2RU 64×400G QSFP-DD bâti sur le Broadcom BCM56996 (Tomahawk 4 avec deep buffer HBM on-package). Livré avec ONIE préinstallé, il exécute la même image OcNOS-DC que les spines TH5 et les leaves TD4. L'ensemble de plateformes validées se limite à un seul switch, mais c'est le switch 400G deep-buffer du portfolio OcNOS.

Q: Pourquoi le Tomahawk 4 reste-t-il pertinent alors que le TH5 est livré en volume ?

Deux raisons. Premièrement, le BCM56996 intègre un buffer profond HBM sur le package. Le TH5 est revenu à une architecture classique à buffer partagé. Pour les rôles d'agrégation 400G et de DCI où les flux s'accumulent profondément dans les files, le TH4 absorbe les rafales qu'un TH5 (ou un TH3) laisse tomber. Deuxièmement, à l'échelle d'un pod unique sur des cartes 400G, un fabric TH4 revient moins cher par port qu'un TH5 sans compromis architectural : un Clos à trois niveaux tient toujours, et la surface fonctionnelle d'OcNOS-DC est identique.

Q: Que fait réellement le deep buffer HBM, en termes concrets ?

La HBM intégrée au package étend le buffer de paquets effectif de la puce de quelques centaines de mégaoctets à environ 70 Go. Dans une fabric IA : les micro-rafales AllReduce peuvent être absorbées dans la HBM plutôt que de déclencher du tail-drop ou des tempêtes de pauses PFC. Dans un rôle de DCI/agrégation : les flux TCP de longue durée survivent à une congestion transitoire sans retransmissions. Cela fait passer le discours sur le sans-perte de « PFC + ECN + réglage minutieux » à « PFC + ECN + marge qui masque la plupart des modes de défaillance ».

Q: OcNOS-DC prend-il en charge le routage adaptatif (DLB) sur Tomahawk 4 ?

Oui. Le TH4 dispose des mêmes primitives de Cognitive Routing que le TH5 : équilibrage de charge tenant compte des flowlets dans l'ASIC, sans aller-retour vers un contrôleur. OcNOS-DC l'active sous le nom de DLB Reactive-Path Rebalance. Associé au buffer profond HBM, un fabric TH4 résout les collisions de hash des elephant flows et encaisse la profondeur de file transitoire qui en résulte sans rien laisser tomber. La détection et la reprise des deadlocks PFC, le DCQCN et l'ETS sont tous disponibles.

Une plateforme ouverte validée sur OcNOS-DC : Edgecore AS9736-64D. La variante deep-buffer à HBM du Tomahawk 4 : le silicon pour les fabrics IA 400G où la marge de buffer compte plus que le nombre de ports 800G, et pour les rôles DCI/agrégation où les rafales sont profondes.

01Le switch 02Au cœur du silicium 03Saut de génération 04OcNOS-DC

Réserver une revue d'architecture Essayez la VM OcNOS

OcNOS-DC · AS9736-64D · Tomahawk 4

$show version

OcNOS-DC 7.0 on Tomahawk 4 (BCM56996)

Platform: Edgecore AS9736-64D 64 × 400G

$show buffer profile hbm

HBM DEEP BUFFER : pool d'extension

Capacité~70 GB on-package HBM

Mode Hybride (on-die + HBM)

Use Absorption des rafales RoCEv2

$show qos pfc int eth1/1

Pri 3 lossless ✓ activé

Pri 4 lossless ✓ activé

Wdog deadlock ✓ armed

$show dlb status

Mode Rééquilibrage réactif des chemins

Actif 7 412 flux ✓ équilibré

25.6Tbps

Capacité du switch

64×400G

Radix de ports natif

~70GB

Buffer profond HBM

7nm

Procédé TSMC N7

50GPAM4

SerDes par voie

Le switch

Matériel ouvert sous Tomahawk 4

Une plateforme. Un objectif : du 400G deep-buffer.

Edgecore AS9736-64D : un commutateur 2RU 64×400G QSFP-DD basé sur le Tomahawk 4 BCM56996 à buffers profonds. ONIE préchargé, exécute la même image OcNOS-DC que les spines TH5 et les leaves TD4. Une plateforme validée pour une niche architecturale que le reste du portefeuille ne couvre pas.

Edgecore· famille de plateformes DCS520

Fabric IA 400G à deep-buffer · DCI

AS9736-64D

Validé sur OcNOS-DC · ONIE préchargé

Ports: 64 × QSFP-DD (400G)Breakout : 2×200 / 4×100 / 8×50 (jusqu'à 256 ports logiques)
Form: 2RU · 21.5 kg
Power: ~2100 W typique · alimentation AC redondante hot-swap~33 W par cage QSFP-DD
CPU: Intel Xeon classe D · 4 Go de RAM

▌ À choisir lorsque

Fabric IA 400G pour les clusters GPU à pod unique où le deep buffer compte plus que les ports 800G, et pour les rôles d'agrégation 400G / DCI où la HBM absorbe les rafales que les commutateurs à plus petit buffer laissent tomber.

Fiche technique Edgecore AS9736-64D PDF

Vous êtes ici · 25,6 Tbps

Tomahawk 4: 64 × 400G

À choisir lorsque des NICs 400G ancrent le cluster, qu'une marge de deep-buffer figure sur la liste des exigences, ou que le boîtier doit absorber des rafales DCI/agrégation qu'un chip à buffer plus réduit laisserait tomber.

Passez à la vitesse supérieure · 51.2 Tbps

Tomahawk 5: 64 × 800G

À choisir lorsque le cluster a besoin de ports 800G nativement, ou lorsque le 800G par port à la même densité de 64 ports justifie le surcoût par port. Page Tomahawk 5 →

Boîtier plus compact · 12,8 Tbps

Trident 4: DC leaf

À privilégier lorsque le rôle est leaf DC en 100G/400G avec une enveloppe de capacité plus réduite. Famille de puces différente, même image OcNOS-DC, coût par port bien inférieur. (Page Trident 4 à venir.)

Au cœur du silicium

Ce que le deep buffer adossé à la HBM vous apporte

Tomahawk 4, et la variante qui a placé la HBM sur le package.

Tomahawk 4 standard (BCM56990) est un switch de 25,6 Tbps avec buffer partagé sur puce de l'ordre de quelques centaines de mégaoctets : la même classe que le TH3 et le TH5. La variante HBM, BCM56996, la puce de l'AS9736-64D, ajoute High-Bandwidth Memory intégrée au package comme pool d'extension à buffers profonds. Environ 70 Go de buffer rattachée à la bande passante HBM, adressable par le même pipeline de forwarding.

Pourquoi cela compte : le RoCEv2 sans perte repose normalement sur le PFC (priority flow control) qui propage la contre-pression en amont lorsqu'une file se remplit. Avec la marge de la HBM, les micro-rafales transitoires d'AllReduce et la congestion des flux longs DCI sont absorbées dans le pool profond au lieu de déclencher des tempêtes de pauses. Le PFC reste armé, mais il se déclenche bien moins souvent, et lorsqu'il le fait, les cycles d'interblocage ont le temps de se résoudre avant que le watchdog ne les purge.

Spécifications recoupées avec celles de Broadcom Page produit BCM56990/56996 et la matrice de fonctionnalités OcNOS en direct.

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM RoutingCognitif · DLB ShippingDepuis 2020

Radix de ports du Broadcom Tomahawk 4 (BCM56996) présenté sous forme de grille de 64 ports, chacun en 400G, totalisant 25,6 Tbps, avec mémoire tampon profonde HBM intégrée au boîtier — À quoi ressemble 64 x 400G : 512 lignes de 50G PAM4 totalisant 25,6 Tbps sur la puce BCM56996, plus HBM intégrée au boîtier.

Quatre choix de conception qui comptent

Pourquoi le TH4 reste pertinent dans la conversation fabric IA même après l'arrivée du TH5.

Trois de ces quatre choix sont partagés avec TH3 et TH5. L'extension HBM est celle qui rend la variante BCM56996 unique.

PRINCIPLE 01 · UNIQUE

HBM deep buffer sur le package.

Environ 70 Go de mémoire à haute bande passante rattachés comme pool d'extension. Les micro-rafales AllReduce et les flux longs DCI sont absorbés dans la HBM au lieu de déclencher des tempêtes de pauses PFC. La seule fonctionnalité qui distingue le BCM56996 du BCM56990, ainsi que du TH3 et du TH5.

~70 GB · HBM-attached

PRINCIPLE 02

SerDes 50G PAM4 : 512 voies.

Le même nombre de lanes que le TH3 (50G NRZ) et le TH5 (100G PAM4). Le TH4 se situe à la génération intermédiaire. Huit lanes par cage QSFP-DD offrent du 400G natif ; le breakout s'étend au 200G/100G/50G pour les déploiements à vitesses mixtes.

512 lanes · 50G PAM4

PRINCIPLE 03

Routage adaptatif matériel.

Broadcom Cognitive Routing : équilibrage de charge flowlet-aware dans l'ASIC, sans aller-retour vers un contrôleur. OcNOS-DC l'active sous forme de DLB Reactive-Path Rebalance. Avec la marge de HBM, le rebinding sur collision de hash et l'absorption de rafales fonctionnent de concert.

DLB · réaffectation des flowlets

PRINCIPLE 04

Silicon mature en 7 nm.

Livré en volume depuis 2020 : plus de quatre ans de corrections de bugs, un comportement prévisible et une enveloppe thermique connue. Pour une mise à niveau en brownfield d'un fabric TH3, c'est le choix sans surprise et prévisible.

TSMC N7 · livré depuis 4+ ans

Saut de génération

Tomahawk 3 → Tomahawk 4

Capacité doublée. Procédé réduit. HBM intégrée.

Le TH3 (12,8 Tbps · 32×400G · 16 nm · 25G NRZ) était la pièce maîtresse de l'ère pré-fabric IA. Le TH4 a doublé sa fiche technique, et la variante BCM56996 a ajouté la subtilité architecturale qui reste encore son élément différenciateur.

Capacité de commutation

12,8 Tbps → 25,6 Tbps

Doublé sur la même empreinte de rack. 2RU est resté 2RU.

Radix de ports natif

32 × 400G → 64 × 400G

Deux fois plus de ports à la même vitesse : s'intègre aux conceptions Clos sans niveau supplémentaire.

Nœud de processus

16 nm → 7 nm

Réduction en deux étapes. Marge de puissance par port pour les optiques 400G sans refroidissement actif par port.

SerDes par voie

25G NRZ → 50G PAM4

Les mêmes 512 voies, deux fois la vitesse par voie. Le doublement est venu de l'infrastructure existante.

Le prochain saut : TH5 double à nouveau pour atteindre 51,2 Tbps et 64 × 800G avec des SerDes 100G PAM4, mais TH5 est revenu à un shared-buffer standard, faisant du deep buffer HBM de TH4G une fonctionnalité d'une seule génération. Page Tomahawk 5 →

Ce que livre OcNOS-DC

OcNOS-DC sur ce silicon

Même image que le spine TH5. Profils de buffer HBM-aware.

OcNOS-DC s'exécute de manière identique sur les plateformes TH3, TH4 et TH5. Sur le TH4, il fait une chose en plus : il mappe les profils DCQCN des opérations collectives xCCL (NCCL / RCCL / oneCCL) sur le pool d'extension HBM, de sorte que RoCEv2 sans perte traverse les rafales qu'un fabric sans deep-buffer devrait gérer par pause PFC.

RoCEv2 sans perte · adossé à la HBM

PFC + ECN préréglés pour xCCL, et le pool profond absorbe le reste.

Configuration PFC + ETS + Dynamic ECN standard, ainsi que des profils de buffer adaptés à la HBM. La plupart des micro-bursts AllReduce n'atteignent jamais le seuil PFC, car la marge HBM les absorbe. La latence de queue reste bornée sous le trafic synchronisé many-to-one qui met à terre les fabrics à buffer peu profond.

Routage adaptatif

Le DLB réassocie les flowlets dans l'ASIC.

Le Cognitive Routing sur TH4 exécute le même DLB Reactive-Path Rebalance qu'OcNOS-DC fournit sur TH5. La combinaison du headroom HBM et du rebinding de flowlets gère la collision de hash ECMP et l'absorption de rafales dans la même passe de forwarding.

Watchdog d'interblocage PFC

Per-port, per-priority. Auto-drain.

Détecte les cycles de files en pause avant qu'ils ne bloquent les tâches d'entraînement. Avec le headroom HBM, de nombreux deadlocks potentiels ne se forment jamais, mais le watchdog reste armé.

Télémétrie en streaming

Occupation HBM sur le lien.

gNMI on-change pour la profondeur de buffer (on-die and extension HBM), marquages ECN, comptes de pauses PFC. Une visibilité sur le pool profond, pas une boîte noire.

Réseau réel

BGP · OSPF · IS-IS · EVPN-VXLAN.

Pile Layer 3 complète de niveau opérateur sur le même silicon. Le spine TH4 est aussi un véritable routeur : exploitez-le comme le reste de votre réseau, et non comme une boîte noire.

Surface de fonctionnalités validée

La même image OcNOS-DC que le TH5 : chaque fonctionnalité s'active là où le silicon le permet.

Layer 3 routing · L1/L2 · AI fabric primitives · Multicast · QoS · Security · Hardware · Management. Per-platform validation visible on the public matrix.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP Télémétrie HBM

Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

Mettez en service l'AS9736-64D dans le rack grâce au provisionnement zero-touch. Diffusez chaque compteur, y compris l'occupation HBM, vers votre stack d'observabilité. Ajustez chaque seuil via une configuration modélisée en YANG. Aucun script de liaison.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Provider Terraform

Qui construit cette stack

Trois profils opérateurs. Un seul silicon pour les trois.

La combinaison 64×400G + HBM place l'AS9736-64D dans trois conversations différentes : AI fabric, DCI et renouvellement brownfield. Même commutateur, cadrage différent d'une même question architecturale.

AI Cluster Operator · pod 400G NIC

Fabric de NIC 400G sans payer pour du silicon 800G.

« Notre cluster est équipé de NIC 400G. Nous n'avons pas encore besoin de ports 800G, mais nous avons besoin du deep buffer. L'AllReduce sur des fabrics à shallow-buffer ne cesse de déclencher le PFC. »

Spines TH4 sur AS9736-64D, RoCEv2 avec DCQCN réglé pour xCCL, profils de buffer adaptés au HBM, rebinding DLB sub-milliseconde. Clos à trois niveaux pour le scale-out multi-pod, même image OcNOS-DC que le déploiement TH5 voisin.

DC · Deep-Buffer Spine

DCI · Architecte de deep-aggregation

Congestion des flux longs sans perte de paquets.

« Notre boîtier DCI doit absorber les rafales des flux TCP inter-DC qui durent plusieurs minutes. Les switches standards en perdent. Les routeurs châssis coûtent dix fois ce que cela devrait coûter. »

Pool d'extension HBM d'environ 70 Go dimensionné pour l'absorption des rafales de flux longs. EVPN-VXLAN inter-DC, pile L3 complète, télémétrie gNMI par locataire. Matériel ouvert à l'économie du silicon marchand.

DC · DCI · Agrégation

Brownfield · renouvellement TH3

Capacité doublée, même modèle opérationnel.

« Nous avons une fabric TH3 en production. Il nous faut davantage de capacité, mais nous ne voulons pas reconcevoir la couche NOS ni reformer l'équipe réseau. »

La même image OcNOS-DC tourne sur TH3 et TH4. La modernisation brownfield conserve intacts les configs, l'automatisation et les pipelines gNMI. La capacité double. Le modèle d'exploitation reste.

DC · Renouvellement

Matrice complète des fonctionnalités Solution Fabric IA Topologies de référence Liste de compatibilité matérielle

Questions fréquentes

Questions posées par les architectes

Quel switch exécutant OcNOS-DC est validé sur Tomahawk 4 ?

Une seule plateforme : la Edgecore AS9736-64D, un switch 2RU 64×400G QSFP-DD construit sur le Broadcom BCM56996 (Tomahawk 4 avec deep buffer HBM intégré au boîtier). Livré préchargé en ONIE, il exécute la même image OcNOS-DC que les spines TH5 et les leaves TD4. L'ensemble de plateformes validées se limite à un seul switch, mais c'est le switch 400G à deep buffer du portfolio OcNOS.

Pourquoi le Tomahawk 4 reste-t-il pertinent alors que le TH5 est livré en volume ?

Deux raisons. Premièrement, le BCM56996 dispose de deep buffer HBM on-package. Le TH5 est revenu à une architecture standard à buffer partagé. Pour les rôles d'agrégation 400G et DCI où les flux s'accumulent profondément dans les files, le TH4 absorbe des rafales qu'un TH5 (ou TH3) laisse tomber. Ensuite, à l'échelle d'un seul pod sur des NIC 400G, une fabric TH4 revient moins cher par port qu'un TH5 sans compromis architectural : un Clos à trois niveaux tient toujours, et la surface de fonctionnalités OcNOS-DC est identique.

Que fait réellement le deep buffer HBM, en termes concrets ?

La HBM embarquée sur le package étend le buffer de paquets effectif de la puce de quelques centaines de mégaoctets à environ 70 Go. Dans une fabric IA : les micro-rafales AllReduce peuvent être absorbées dans la HBM plutôt que de déclencher du tail-drop ou des tempêtes de pause PFC. Dans un rôle DCI/agrégation : les flux TCP de longue durée survivent à une congestion transitoire sans retransmissions. Cela fait passer la promesse du sans perte de « PFC + ECN + réglage soigné » to « PFC + ECN + headroom qui masquent la plupart des modes de défaillance. »

AS9736-64D (TH4) vs AIS800-64D (TH5) : lequel choisir et quand ?

Choisissez le TH5 (AIS800-64D) lorsque des ports 800G figurent dans la BoM, ou que vous souhaitez du 800G par port avec le même radix de 64 ports (ce qui réduit de moitié le câblage spine-leaf pour une bande passante agrégée identique). Choisissez le TH4 (AS9736-64D) lorsque des cartes réseau 400G constituent le socle du cluster, lorsque le deep buffer est le choix architectural (DCI, agrégation profonde, fabrics à flux mixtes), ou lorsque le budget par port exclut le silicon 800G. Les deux exécutent la même image OcNOS-DC. Les combiner au sein d'une fabric multi-niveaux est un déploiement pris en charge.

OcNOS-DC prend-il en charge le routage adaptatif (DLB) sur Tomahawk 4 ?

Oui. Le TH4 possède les mêmes primitives de Cognitive Routing que le TH5 : un load-balancing tenant compte des flowlets dans l'ASIC, sans aller-retour vers un contrôleur. OcNOS-DC active cela sous le nom de DLB Reactive-Path Rebalance. Combiné au deep buffer HBM, un fabric TH4 résout les collisions de hachage des elephant flows and traverse la profondeur de file transitoire qui en résulte sans rejet. La détection et la récupération de blocage PFC, DCQCN et ETS sont toutes disponibles.

TH3 → TH4 → TH5 : ce qui n'a pas changé et ce qui a changé

Capacité doublée à deux reprises (12.8 → 25.6 → 51.2 Tbps). Finesse de gravure réduite à deux reprises (16 → 7 → 5 nm). SerDes par voie doublé à deux reprises (25G NRZ → 50G PAM4 → 100G PAM4). Le nombre de voies est resté à 512 sur toute la famille. Architecture de buffer : TH3 en mémoire partagée standard, TH4 a ajouté la HBM (variante BCM56996 uniquement), TH5 est revenu à la mémoire partagée standard. OcNOS-DC prend en charge les trois avec une seule et même image : la modernisation brownfield préserve l'intégrité des configurations et des pipelines gNMI.

Où Tomahawk 4 est-il le mauvais choix ?

Le radix 64×400G est surdimensionné pour une périphérie SP ou une passerelle de site cellulaire en dessous de 1 Tbps : choisissez plutôt Qumran (Q2C, Q2C+) ou Qumran 2A/2U pour ces cas. Pour du leaf DC pur en 100G/25G, c'est aussi la mauvaise forme : choisissez Trident 4 (TD4) à 12,8 Tbps. Et si le cluster a réellement besoin de ports 800G dès aujourd'hui, le TH4 impose un niveau Clos supplémentaire, alors choisissez TH5. Le point fort du TH4 est : « le 400G suffit, le deep buffer est requis ».

Vous concevez une fabric 400G à deep buffer ? Dimensionnons-la ensemble.

Session d'architecture de 30 minutes avec un architecte réseau OcNOS. Apportez votre nombre de GPU, la vitesse de vos NIC et vos attentes en matière de patterns de rafales, et repartez avec une BoM dimensionnée autour de l'AS9736-64D et un plan de placement face aux alternatives TH5 / TD4.

Réserver une revue d'architecture Essayez OcNOS-DC

Notes de solution

Approfondissez. Emportez-le avec vous.

Deux documents techniques concis qui vont plus loin que cette page : la référence data center EVPN-VXLAN et l'architecture AI fabric 800G lossless.

Solution brief

Fabric DC EVPN-VXLAN

Fabric de data center leaf-spine de niveau opérateur : IRB symétrique, routes Type-2/Type-5 et passerelle anycast distribuée.

Obtenir le brief

Solution brief

OcNOS 800G Lossless AI Fabric

Fabric RoCEv2 non bloquante sur des spines Broadcom Tomahawk 4/5 : niveaux de SKU, plateformes validées et architecture de déploiement.

Obtenir le brief

Solutions

Produits

Partenaires

Ressources

Entreprise

Réseaux opérateurs

Transport mobile 5G

Agrégation haut débit

Metro Ethernet et agrégation

Cœur IP et peering

IP sur DWDM (optique routée)

Fabric de data center

Fabric IA

Interconnexion de datacenter

Protection DDoS

Automatisation et API