BCM56996 · TSMC 7 nm · 封装内 HBM 深缓冲

Broadcom Tomahawk 4 Tomahawk 4 交换机 25.6 Tbps · 64 × 400G · 深缓冲 400G 一代。

一款经 OcNOS-DC 验证的开放平台: Edgecore AS9736-64D。Tomahawk 4 的 HBM 深缓冲版本:面向 400G AI 网络的芯片,在这类场景中缓冲余量比 800G 端口数量更重要;同时也适用于突发流量较深的 DCI/汇聚角色。

25.6Tbps
交换容量
64×400G
原生端口密度
~70GB
HBM 深缓冲
7nm
TSMC N7 工艺
50GPAM4
每通道 SerDes
01
交换机
运行 Tomahawk 4 的开放硬件

一个平台。一个目标:深缓存 400G。

Edgecore AS9736-64D:基于 BCM56996 深缓冲 Tomahawk 4 的 2RU 64×400G QSFP-DD 交换机。预装 ONIE,运行与 TH5 spine 和 TD4 叶交换机相同的 OcNOS-DC 镜像。一款经过验证的平台,填补了产品线中其他设备覆盖不到的架构空缺。

Edgecore· DCS520 平台家族
深缓存 400G AI 网络 · DCI

AS9736-64D

经 OcNOS-DC 验证 · 预装 ONIE
Ports
64 × QSFP-DD (400G)拆分:2×200 / 4×100 / 8×50(最多 256 个逻辑端口)
Form
2RU · 21.5 kg
Power
典型功耗约 2100 W · 热插拔冗余 AC每个 QSFP-DD 端口约 33 W
CPU
Intel Xeon D 级 · 4 GB RAM
▌ 适用场景

面向单 pod GPU 集群的 400G AI 网络,在这类场景中深缓冲比 800G 端口更重要;同时也适用于 400G 汇聚 / DCI 角色,其 HBM 可吸收较小缓冲交换机会丢弃的突发流量。

您当前所在位置 · 25.6 Tbps

Tomahawk 4: 64 × 400G

当 400G NIC 是集群的核心、深缓冲余量在需求清单之列,或设备必须吸收较小缓冲芯片会丢弃的 DCI/汇聚突发流量时,可选择此款。

升级至 · 51.2 Tbps

Tomahawk 5: 64 × 800G

当集群需要原生 800G 端口,或者在相同 64 端口基数下每端口 800G 值得支付每端口溢价时,选择此型号。 Tomahawk 5 页面 →

更小机型 · 12.8 Tbps

Trident 4: DC leaf

当角色为 100G/400G、容量需求较小的 DC 叶节点时可选用。采用不同的芯片系列,但运行相同的 OcNOS-DC 镜像,每端口成本大幅降低。 (Trident 4 页面即将推出。)

02
深入芯片内部
基于 HBM 的深缓存能为您带来什么

Tomahawk 4,以及将 HBM 集成到封装上的变体。

标准 Tomahawk 4 (BCM56990)是一款 25.6 Tbps 交换机,片上共享缓存在数百兆字节量级:与 TH3 和 TH5 同属一类。其 HBM 变体, BCM56996,即 AS9736-64D 中的芯片,新增了 封装内高带宽内存(HBM) 作为深缓存扩展池。大约 70 GB 缓存 以 HBM 带宽挂载,可由同一转发流水线寻址。

这一点之所以重要:无损 RoCEv2 通常依赖 PFC(优先级流量控制)在队列充满时向上游传播反压。有了 HBM 的缓冲余量,瞬时的 AllReduce 微突发和 DCI 长流拥塞会被吸收进深度缓冲池,而不会触发 pause 风暴。PFC 仍会就位,但触发频率大大降低,而且即便触发,死锁环路也有时间在 watchdog 将其清除之前自行化解。

规格已与 Broadcom 官方数据交叉核对 BCM56990/56996 产品页 以及实时的 OcNOS 功能矩阵。

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM Routing认知式 · DLB Shipping自 2020 年起

· 64 × 400G 是怎样的形态

BCM56996 裸片25.6 Tbps
+ On-package HBM约 70 GB 深缓冲
512 通道 × 50G PAM4 = 25.6 Tbps。每笼八通道 → 400G。缓冲区扩展正是其差异化所在。
四项关键设计选择

为何即使在 TH5 上市之后,TH4 仍是 AI fabric 话题中的一员。

这四个选项中有三个与 TH3 和 TH5 共享。HBM 扩展才是让 BCM56996 变体独具特色的那一项。

PRINCIPLE 02

50G PAM4 SerDes:512 条通道。

与 TH3(50G NRZ)和 TH5(100G PAM4)相同的 lane 数。TH4 处于中间代次。每个 QSFP-DD 笼位 8 条 lane,可原生提供 400G;通过 breakout 可拆分为 200G/100G/50G,适配混合速率部署。

512 通道 · 50G PAM4
PRINCIPLE 03

硬件自适应路由。

Broadcom Cognitive Routing:在 ASIC 内实现感知 flowlet 的负载均衡,无需控制器往返。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式启用该能力。借助 HBM 余量,哈希冲突重绑定与突发吸收可协同工作。

DLB · flowlet 重绑定
PRINCIPLE 04

成熟的 7 nm 芯片。

自 2020 年起规模化出货:四年多的缺陷修复、可预测的运行行为以及已知的热设计范围。对于 TH3 fabric 的棕地改造而言,这是稳妥且可预期的选择。

TSMC N7 · 量产 4 年以上
03
代际跨越
Tomahawk 3 → Tomahawk 4

容量翻倍。制程缩小。HBM 登场。

TH3(12.8 Tbps · 32×400G · 16 nm · 25G NRZ)是 AI fabric 时代之前的主力机型。TH4 将规格参数翻倍,而 BCM56996 变体引入的架构创新,至今仍是其差异化所在。

交换容量
12.8 Tbps 25.6 Tbps

在相同机架占用下实现翻倍。2RU 仍是 2RU。

原生端口密度
32 × 400G 64 × 400G

在相同速率下端口数翻倍:无需额外层级即可适配 Clos 设计。

制程节点
16 nm 7 nm

两级制程收缩。为 400G 光模块提供每端口功耗余量,无需按端口主动散热。

每通道 SerDes
25G NRZ 50G PAM4

同样的 512 条通道,每通道速率翻倍。翻番源自现有基础设施。

下一跳: TH5 再次翻倍至 51.2 Tbps 和 64 × 800G,采用 100G PAM4 SerDes,但 TH5 回归标准共享缓冲,使得 TH4G 的 HBM 深缓冲成为仅此一代的特性。 Tomahawk 5 页面 →
04
OcNOS-DC 交付内容
此芯片上运行 OcNOS-DC

与 TH5 脊层相同的镜像。HBM 感知的缓冲配置。

OcNOS-DC 在 TH3、TH4、TH5 平台上的运行表现完全一致。在 TH4 上额外做一件事:将 xCCL (NCCL / RCCL / oneCCL) 集体通信的 DCQCN 配置文件映射到 HBM 扩展池,使无损 RoCEv2 能够平稳穿越突发流量 — 这类突发在非深缓冲 fabric 上必须依靠 PFC pause 处理。

无损 RoCEv2 · HBM 支撑

PFC + ECN 已针对 xCCL 预先调优、剩余流量由深缓冲池吸收。

标准的 PFC + ETS + 动态 ECN 配置,外加感知 HBM 的缓冲区配置文件。大多数 AllReduce 微突发永远不会触及 PFC 阈值,因为 HBM 余量将其吸收。在会让浅缓冲 fabric 崩溃的同步多对一流量下,尾延迟始终保持在有界范围内。

Adaptive Routing

DLB 在 ASIC 中对 flowlet 重新绑定。

TH4 上的 Cognitive Routing 运行的正是 OcNOS-DC 在 TH5 上交付的同一套 DLB Reactive-Path Rebalance。HBM headroom 加上 flowlet 重新绑定的组合,可在同一次转发流程中处理 ECMP 哈希冲突与突发吸收。

PFC 死锁看门狗

Per-port, per-priority. Auto-drain.

在暂停队列循环挂起训练作业之前即可检测到。凭借 HBM 缓冲余量,许多潜在死锁根本不会形成,但看门狗仍保持待命。

流式遥测

线上的 HBM 占用情况。

针对缓存深度的 gNMI on-change(片上 and HBM 扩展)、ECN 标记、PFC 暂停计数。可洞察深度缓冲池,而非黑盒。

真实网络

BGP · OSPF · IS-IS · EVPN-VXLAN.

在同一颗芯片上提供完整的运营商级三层协议栈。TH4 骨干同时也是一台真正的路由器:可像运维网络的其他部分一样运维它,而非将其当作黑盒。

已验证的特性范围

与 TH5 相同的 OcNOS-DC 镜像:凡芯片支持之处,每项功能均可启用。

三层路由 · L1/L2 · AI/ML 网络结构原语 · 组播 · QoS · 安全 · 硬件 · 管理。每款平台的验证情况均可在公开的特性矩阵中查阅。

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP HBM 遥测
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

借助零接触部署(ZTP),在机架中快速启用 AS9736-64D。将每一项计数器(包括 HBM 占用率)流式上报至您的可观测性栈。通过 YANG 建模的配置项调优每一个阈值。无需任何粘合脚本。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform provider
谁构建了这套技术栈

三类运营商画像。一款芯片通吃。

64×400G 与 HBM 的组合让 AS9736-64D 出现在三种不同的应用场景中:AI fabric、DCI、存量网络升级。同一款交换机,同一架构议题的不同切入角度。

AI 集群运营商 · 400G NIC 单元

无需为 800G 芯片付费的 400G NIC 网络。

“我们的集群采用 400G 网卡。我们暂时还不需要 800G 端口,但确实需要深缓冲。AllReduce 在浅缓冲网络上不断触发 PFC。”

AS9736-64D 上的 TH4 spine、采用针对 xCCL 调优的 DCQCN 的 RoCEv2、HBM 感知缓冲配置、亚毫秒级 DLB 重绑定。三层 Clos 支持多 pod 横向扩展、与相邻 TH5 部署使用同款 OcNOS-DC 镜像。

DC · Deep-Buffer Spine
DCI · 深度汇聚架构

在不丢包的前提下应对长流拥塞。

"我们的 DCI 设备必须吸收跨数据中心 TCP 流持续数分钟的突发流量。普通交换机会丢包。机框式路由器的价格则是这类设备应有价格的十倍。"

约 70 GB 的 HBM 扩展池,专为长流突发吸收而设计。支持 EVPN-VXLAN 跨 DC 互联、完整 L3 栈、逐租户 gNMI 遥测。以通用芯片的经济性提供开放硬件。

DC · DCI · 汇聚
棕地 · TH3 换新

容量翻倍,运维模式不变。

“我们有一张 TH3 织构正在生产环境中运行。我们需要更多容量,但不想重新设计 NOS 层,也不想让网络团队重新培训。”

同一款 OcNOS-DC 镜像可在 TH3 和 TH4 上运行。存量网络升级可保留配置、自动化和 gNMI 流水线不变。容量翻倍,运维模式不变。

DC · 焕新
常见问题

架构师真正会问的问题。

唯一一款平台: Edgecore AS9736-64D,一款基于 Broadcom BCM56996(Tomahawk 4,带封装内 HBM 深缓冲)打造的 2RU 64×400G QSFP-DD 交换机。出厂预装 ONIE,运行与 TH5 spine 及 TD4 leaf 相同的 OcNOS-DC 镜像。经过验证的平台仅此一款交换机,但它是 OcNOS 产品组合中的深缓冲 400G 交换机。
两个原因。首先,BCM56996 拥有 封装内 HBM 深缓冲。TH5 回归了标准的共享缓冲架构。对于流量深度排队的 400G 汇聚与 DCI 场景,TH4 能够吸收 TH5(或 TH3)会丢弃的突发流量。其次,在单 pod 规模、采用 400G 网卡的情况下,TH4 组网的单端口成本低于 TH5,且不存在任何架构上的妥协:三层 Clos 依然适用,而 OcNOS-DC 的功能面完全一致。
封装内 HBM 将芯片的有效报文缓冲区从数百兆字节扩展至约 70 GB。在 AI 组网中:AllReduce 微突发可被 HBM 吸收,而不会触发尾部丢包或 PFC pause 风暴。在 DCI/汇聚场景中:长生命周期的 TCP 流可在瞬态拥塞下存续而无需重传。它将无损叙事从 “PFC + ECN + 精细调优” to “PFC + ECN + headroom,可掩盖大部分故障模式。”
当 BoM 中包含 800G 端口,或您希望在同样的 64 端口 radix 下实现每端口 800G(在相同聚合带宽下将 spine-leaf 布线减半)时,选择 TH5(AIS800-64D)。当 400G NIC 是集群的基准、深缓冲是架构选型(DCI、深度汇聚、混合流量架构),或每端口预算无法支撑 800G 芯片时,选择 TH4(AS9736-64D)。两者运行相同的 OcNOS-DC 镜像。在多层架构中混合使用二者是受支持的部署方式。
是的。TH4 拥有与 TH5 相同的 Cognitive Routing 原语:在 ASIC 内实现 flowlet 感知的负载均衡,无需控制器往返。OcNOS-DC 将其作为 DLB Reactive-Path Rebalance 开启。结合 HBM 深度缓冲,TH4 fabric 即可化解 elephant-flow 的哈希冲突 and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
容量两次翻倍(12.8 → 25.6 → 51.2 Tbps)。制程两次缩小(16 → 7 → 5 nm)。单通道 SerDes 两次翻倍(25G NRZ → 50G PAM4 → 100G PAM4)。整个系列的通道数始终保持在 512。缓冲架构方面:TH3 采用标准共享缓冲,TH4 增加了 HBM(仅限 BCM56996 变体),TH5 又回归标准共享缓冲。OcNOS-DC 用同一镜像支持这三者:存量网络升级可保持配置和 gNMI 流水线完好无损。
对于1 Tbps以下的SP边缘或小区站点网关而言,64×400G的端口密度过剩:此类场景应选择Qumran(Q2C、Q2C+)或Qumran 2A/2U。对于纯100G/25G的DC leaf,它的形态也不合适:应选择12.8 Tbps的Trident 4(TD4)。而如果集群当下确实需要800G端口,TH4会迫使增加一层Clos架构,因此应选择TH5。TH4的最佳适用场景是“400G已够用、且需要深缓存”。

正在设计深缓冲 400G 网络?让我们一起规划其规模。

与 OcNOS 网络架构师进行 30 分钟架构会谈。请带上你的 GPU 数量、NIC 速率与突发模式预期,会后即可获得围绕 AS9736-64D 测算的 BoM,以及相对 TH5 / TD4 备选方案的部署规划。