BCM56996 · TSMC 7 nm · 封裝內 HBM 深緩衝

Broadcom Tomahawk 4 Tomahawk 4 交換機 25.6 Tbps · 64 × 400G · 深緩衝 400G 一代。

一款經 OcNOS-DC 驗證的開放平台: Edgecore AS9736-64D。Tomahawk 4 的 HBM 深緩衝版本:適用於 400G AI 網路的晶片,在這類場景中緩衝餘量比 800G 埠數量更重要;同時也適用於突發流量較深的 DCI/匯聚角色。

25.6Tbps
交換容量
64×400G
原生埠密度
~70GB
HBM 深緩衝
7nm
TSMC N7 工藝
50GPAM4
每通道 SerDes
01
交換機
運行 Tomahawk 4 的開放硬體

一個平台。一個目標:深緩存 400G。

Edgecore AS9736-64D:基於 BCM56996 深緩衝 Tomahawk 4 的 2RU 64×400G QSFP-DD 交換機。預裝 ONIE,運行與 TH5 spine 和 TD4 葉交換機相同的 OcNOS-DC 鏡像。一款經過驗證的平台,填補了產品線中其他設備覆蓋不到的架構空缺。

Edgecore· DCS520 平台家族
深緩存 400G AI 網路 · DCI

AS9736-64D

經 OcNOS-DC 驗證 · 預裝 ONIE
Ports
64 × QSFP-DD (400G)拆分:2×200 / 4×100 / 8×50(最多 256 個邏輯埠)
Form
2RU · 21.5 kg
Power
典型功耗約 2100 W · 熱插拔冗餘 AC每個 QSFP-DD 埠約 33 W
CPU
Intel Xeon D 級 · 4 GB RAM
▌ 適用場景

適用於單 pod GPU 叢集的 400G AI 網路,在這類場景中深緩衝比 800G 埠更重要;同時也適用於 400G 匯聚 / DCI 角色,其 HBM 可吸收較小緩衝交換機會丟棄的突發流量。

您當前所在位置 · 25.6 Tbps

Tomahawk 4: 64 × 400G

當 400G NIC 是叢集的核心、深緩衝餘量在需求清單之列,或設備必須吸收較小緩衝晶片會丟棄的 DCI/匯聚突發流量時,可選擇此款。

升級至 · 51.2 Tbps

Tomahawk 5: 64 × 800G

當叢集需要原生 800G 埠,或者在相同 64 埠基數下每埠 800G 值得支付每埠溢價時,選擇此型號。 Tomahawk 5 頁面 →

更小機型 · 12.8 Tbps

Trident 4: DC leaf

當角色為 100G/400G、容量需求較小的 DC 葉節點時可選用。採用不同的晶片系列,但運行相同的 OcNOS-DC 鏡像,每埠成本大幅降低。 (Trident 4 頁面即將推出。)

02
深入晶片內部
基於 HBM 的深緩存能為您帶來什麼

Tomahawk 4,以及將 HBM 整合到封裝上的變體。

標準 Tomahawk 4 (BCM56990)是一款 25.6 Tbps 交換機,片上共享緩存在數百兆位元組量級:與 TH3 和 TH5 同屬一類。其 HBM 變體, BCM56996,即 AS9736-64D 中的晶片,新增了 封裝內高頻寬記憶體(HBM) 作為深緩存擴展池。大約 70 GB 緩存 以 HBM 頻寬掛載,可由同一轉發流水線尋址。

這一點之所以重要:無損 RoCEv2 通常依賴 PFC(優先級流量控制)在隊列充滿時向上遊傳播反壓。有了 HBM 的緩衝餘量,瞬時的 AllReduce 微突發和 DCI 長流擁塞會被吸收進深度緩衝池,而不會觸發 pause 風暴。PFC 仍會就位,但觸發頻率大大降低,而且即便觸發,死鎖環路也有時間在 watchdog 將其清除之前自行化解。

規格已與 Broadcom 官方數據交叉核對 BCM56990/56996 產品頁 以及實時的 OcNOS 功能矩陣。

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM Routing認知式 · DLB Shipping自 2020 年起

· 64 × 400G 是怎樣的形態

BCM56996 裸片25.6 Tbps
+ On-package HBM約 70 GB 深緩衝
512 通道 × 50G PAM4 = 25.6 Tbps。每籠八通道 → 400G。緩衝區擴展正是其差異化所在。
四項關鍵設計選擇

為何即使在 TH5 上市之後,TH4 仍是 AI fabric 話題中的一員。

這四個選項中有三個與 TH3 和 TH5 共享。HBM 擴展才是讓 BCM56996 變體獨具特色的那一項。

PRINCIPLE 02

50G PAM4 SerDes:512 條通道。

與 TH3(50G NRZ)和 TH5(100G PAM4)相同的 lane 數。TH4 處於中間代次。每個 QSFP-DD 籠位 8 條 lane,可原生提供 400G;通過 breakout 可拆分為 200G/100G/50G,適配混合速率部署。

512 通道 · 50G PAM4
PRINCIPLE 03

硬體自適應路由。

Broadcom Cognitive Routing:在 ASIC 內實現感知 flowlet 的負載均衡,無需控制器往返。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式啟用該能力。藉助 HBM 餘量,哈希衝突重綁定與突發吸收可協同工作。

DLB · flowlet 重綁定
PRINCIPLE 04

成熟的 7 nm 晶片。

自 2020 年起規模化出貨:四年多的缺陷修復、可預測的運行行為以及已知的熱設計範圍。對於 TH3 fabric 的棕地改造而言,這是穩妥且可預期的選擇。

TSMC N7 · 量產 4 年以上
03
代際跨越
Tomahawk 3 → Tomahawk 4

容量翻倍。製程縮小。HBM 登場。

TH3(12.8 Tbps · 32×400G · 16 nm · 25G NRZ)是 AI fabric 時代之前的主力機型。TH4 將規格參數翻倍,而 BCM56996 變體引入的架構創新,至今仍是其差異化所在。

交換容量
12.8 Tbps 25.6 Tbps

在相同機架佔用下實現翻倍。2RU 仍是 2RU。

原生埠密度
32 × 400G 64 × 400G

在相同速率下埠數翻倍:無需額外層級即可適配 Clos 設計。

製程節點
16 nm 7 nm

兩級製程收縮。為 400G 光模組提供每埠功耗餘量,無需按埠主動散熱。

每通道 SerDes
25G NRZ 50G PAM4

同樣的 512 條通道,每通道速率翻倍。翻番源自現有基礎設施。

下一跳: TH5 再次翻倍至 51.2 Tbps 和 64 × 800G,採用 100G PAM4 SerDes,但 TH5 回歸標準共享緩衝,使得 TH4G 的 HBM 深緩衝成為僅此一代的特性。 Tomahawk 5 頁面 →
04
OcNOS-DC 交付內容
此晶片上運行 OcNOS-DC

與 TH5 脊層相同的鏡像。HBM 感知的緩衝配置。

OcNOS-DC 在 TH3、TH4、TH5 平台上的運行表現完全一致。在 TH4 上額外做一件事:將 xCCL (NCCL / RCCL / oneCCL) 集體通信的 DCQCN 配置檔案映射到 HBM 擴展池,使無損 RoCEv2 能夠平穩穿越突發流量 — 這類突發在非深緩衝 fabric 上必須依靠 PFC pause 處理。

無損 RoCEv2 · HBM 支撐

PFC + ECN 已針對 xCCL 預先調優、剩餘流量由深緩衝池吸收。

標準的 PFC + ETS + 動態 ECN 配置,外加感知 HBM 的緩衝區配置檔案。大多數 AllReduce 微突發永遠不會觸及 PFC 閾值,因為 HBM 餘量將其吸收。在會讓淺緩衝 fabric 崩潰的同步多對一流量下,尾延遲始終保持在有界範圍內。

Adaptive Routing

DLB 在 ASIC 中對 flowlet 重新綁定。

TH4 上的 Cognitive Routing 運行的正是 OcNOS-DC 在 TH5 上交付的同一套 DLB Reactive-Path Rebalance。HBM headroom 加上 flowlet 重新綁定的組合,可在同一次轉發流程中處理 ECMP 哈希衝突與突發吸收。

PFC 死鎖看門狗

Per-port, per-priority. Auto-drain.

在暫停隊列循環掛起訓練作業之前即可檢測到。憑藉 HBM 緩衝餘量,許多潛在死鎖根本不會形成,但看門狗仍保持待命。

串流遙測

線上的 HBM 佔用情況。

針對緩存深度的 gNMI on-change(片上 and HBM 擴展)、ECN 標記、PFC 暫停計數。可洞察深度緩衝池,而非黑盒。

真實網路

BGP · OSPF · IS-IS · EVPN-VXLAN.

在同一顆晶片上提供完整的電信等級三層協議棧。TH4 骨幹同時也是一臺真正的路由器:可像運維網路的其他部分一樣運維它,而非將其當作黑盒。

已驗證的特性範圍

與 TH5 相同的 OcNOS-DC 鏡像:凡晶片支持之處,每項功能均可啟用。

三層路由 · L1/L2 · AI/ML 網路結構原語 · 組播 · QoS · 安全 · 硬體 · 管理。每款平台的驗證情況均可在公開的特性矩陣中查閱。

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP HBM 遙測
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

藉助零接觸部署(ZTP),在機架中快速啟用 AS9736-64D。將每一項計數器(包括 HBM 佔用率)流式上報至您的可觀測性棧。通過 YANG 建模的配置項調優每一個閾值。無需任何粘合腳本。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform provider
誰構建了這套技術棧

三類電信業者畫像。一款晶片通吃。

64×400G 與 HBM 的組合讓 AS9736-64D 出現在三種不同的應用場景中:AI fabric、DCI、存量網路升級。同一款交換機,同一架構議題的不同切入角度。

AI 叢集電信業者 · 400G NIC 單元

無需為 800G 晶片付費的 400G NIC 網路。

「我們的叢集採用 400G 網卡。我們暫時還不需要 800G 埠,但確實需要深緩衝。AllReduce 在淺緩衝網路上不斷觸發 PFC。」

AS9736-64D 上的 TH4 spine、採用針對 xCCL 調優的 DCQCN 的 RoCEv2、HBM 感知緩衝配置、亞毫秒級 DLB 重綁定。三層 Clos 支持多 pod 橫向擴展、與相鄰 TH5 部署使用同款 OcNOS-DC 鏡像。

DC · Deep-Buffer Spine
DCI · 深度匯聚架構

在不丟包的前提下應對長流擁塞。

"我們的 DCI 設備必須吸收跨資料中心 TCP 流持續數分鐘的突發流量。普通交換機會丟包。機框式路由器的價格則是這類設備應有價格的十倍。"

約 70 GB 的 HBM 擴展池,專為長流突發吸收而設計。支持 EVPN-VXLAN 跨 DC 互聯、完整 L3 棧、逐租戶 gNMI 遙測。以通用晶片的經濟性提供開放硬體。

DC · DCI · 匯聚
棕地 · TH3 換新

容量翻倍,運維模式不變。

「我們有一張 TH3 織構正在生產環境中運行。我們需要更多容量,但不想重新設計 NOS 層,也不想讓網路團隊重新培訓。」

同一款 OcNOS-DC 鏡像可在 TH3 和 TH4 上運行。存量網路升級可保留配置、自動化和 gNMI 流水線不變。容量翻倍,運維模式不變。

DC · 煥新
常見問題

架構師真正會問的問題。

唯一一款平台: Edgecore AS9736-64D,一款基於 Broadcom BCM56996(Tomahawk 4,帶封裝內 HBM 深緩衝)打造的 2RU 64×400G QSFP-DD 交換機。出廠預裝 ONIE,運行與 TH5 spine 及 TD4 leaf 相同的 OcNOS-DC 鏡像。經過驗證的平台僅此一款交換機,但它是 OcNOS 產品組合中的深緩衝 400G 交換機。
兩個原因。首先,BCM56996 擁有 封裝內 HBM 深緩衝。TH5 回歸了標準的共享緩衝架構。對於流量深度排隊的 400G 匯聚與 DCI 場景,TH4 能夠吸收 TH5(或 TH3)會丟棄的突發流量。其次,在單 pod 規模、採用 400G 網卡的情況下,TH4 組網的單埠成本低於 TH5,且不存在任何架構上的妥協:三層 Clos 依然適用,而 OcNOS-DC 的功能面完全一致。
封裝內 HBM 將晶片的有效報文緩衝區從數百兆位元組擴展至約 70 GB。在 AI 組網中:AllReduce 微突發可被 HBM 吸收,而不會觸發尾部丟包或 PFC pause 風暴。在 DCI/匯聚場景中:長生命周期的 TCP 流可在瞬態擁塞下存續而無需重傳。它將無損敘事從 「PFC + ECN + 精細調優」 to 「PFC + ECN + headroom,可掩蓋大部分故障模式。」
當 BoM 中包含 800G 埠,或您希望在同樣的 64 埠 radix 下實現每埠 800G(在相同聚合頻寬下將 spine-leaf 布線減半)時,選擇 TH5(AIS800-64D)。當 400G NIC 是叢集的基準、深緩衝是架構選型(DCI、深度匯聚、混合流量架構),或每埠預算無法支撐 800G 晶片時,選擇 TH4(AS9736-64D)。兩者運行相同的 OcNOS-DC 鏡像。在多層架構中混合使用二者是受支持的部署方式。
是的。TH4 擁有與 TH5 相同的 Cognitive Routing 原語:在 ASIC 內實現 flowlet 感知的負載均衡,無需控制器往返。OcNOS-DC 將其作為 DLB Reactive-Path Rebalance 開啟。結合 HBM 深度緩衝,TH4 fabric 即可化解 elephant-flow 的哈希衝突 and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
容量兩次翻倍(12.8 → 25.6 → 51.2 Tbps)。製程兩次縮小(16 → 7 → 5 nm)。單通道 SerDes 兩次翻倍(25G NRZ → 50G PAM4 → 100G PAM4)。整個系列的通道數始終保持在 512。緩衝架構方面:TH3 採用標準共享緩衝,TH4 增加了 HBM(僅限 BCM56996 變體),TH5 又回歸標準共享緩衝。OcNOS-DC 用同一鏡像支持這三者:存量網路升級可保持配置和 gNMI 流水線完好無損。
對於1 Tbps以下的SP邊緣或小區站點網關而言,64×400G的埠密度過剩:此類場景應選擇Qumran(Q2C、Q2C+)或Qumran 2A/2U。對於純100G/25G的DC leaf,它的形態也不合適:應選擇12.8 Tbps的Trident 4(TD4)。而如果叢集當下確實需要800G埠,TH4會迫使增加一層Clos架構,因此應選擇TH5。TH4的最佳適用場景是「400G已夠用、且需要深緩存」。

正在設計深緩衝 400G 網路?讓我們一起規劃其規模。

與 OcNOS 網路架構師進行 30 分鐘架構會談。請帶上你的 GPU 數量、NIC 速率與突發模式預期,會後即可獲得圍繞 AS9736-64D 測算的 BoM,以及相對 TH5 / TD4 備選方案的部署規劃。