BCM56780 · TSMC 7 nm · 1RU 32×400G 搭配 iPo-DWDM

Broadcom Trident 4 Trident 4 交换机 12.8 Tbps · 32 × 400G · 现代化 DC leaf。

两款已在 OcNOS-DC 上验证的开放 1RU 32×400G 平台: Edgecore AS9726-32DB and UfiSpace S9300-32D。具备 iPo-DWDM 余量的 DC-leaf 级芯片:400G ZR/ZR+ 相干光模块可直接插入端口笼,无需 transponder shelf。

12.8Tbps
交换容量
32×400G
原生端口密度
1RU
外形规格
2SKUs
OcNOS-Validated
400GZR
iPo-DWDM 就绪
01
交换机
运行 Trident 4 的开放硬件

两款 1RU 同系列 SKU。一个 OcNOS-DC 镜像。

相同的架构类别(基于 Broadcom BCM56780 的 32 × QSFP-DD),不同的 ODM。两者均出厂预装 ONIE 并运行相同的 OcNOS-DC 镜像。区别在于采购定位以及哪种供应商关系更适合您的机群。每张卡片均链接至完整的供应商数据表(PDF,本地托管)。

Edgecore· DCS 系列
DC leaf · 400G

AS9726-32DB

经 OcNOS-DC 验证 · 预装 ONIE
Ports
32 × QSFP-DD (400G)拆分:2×200 / 4×100 / 8×50(最多 256 个逻辑端口)
Form
1RU · 438.4 × 500 × 43.4 mm
Power
典型功耗约 1500 W · 热插拔冗余每个 QSFP-DD 端口约 47 W
CPU
Intel Xeon D · 2 GB 内存
▌ 适用场景

具备 iPo-DWDM 余量的 400G DC leaf:400G ZR/ZR+ 可插拔光模块可直接插入 spine,无需 transponder。Edgecore 品牌 SKU。

UfiSpace· S9300 系列
DC leaf · 400G

S9300-32D

经 OcNOS-DC 验证 · 预装 ONIE
Ports
32 × QSFP-DD (400G)拆分:2×200 / 4×100 / 8×50(最多 256 个逻辑端口)
Form
1RU · 440 × 500 × 43.5 mm
Power
典型功耗约 1500 W · 热插拔冗余每个 QSFP-DD 端口约 47 W
CPU
Intel Xeon D · 2 GB 内存
▌ 适用场景

与 AS9726-32DB 属于同一架构类别。可按 ODM 合作关系、BoM 经济性,或根据 UfiSpace 平台在您现有设备群其余部分中已占主导的情况进行选型。

· TD4 在 OcNOS 产品组合中的定位

vs Tomahawk 4TD4 以一半的机架空间提供一半的容量:DC leaf 级别。 TH4(25.6 Tbps) 适用于注重深缓冲的脊层/汇聚角色。
vs Tomahawk 5TD4 is 400G; TH5(51.2 Tbps) 即 800G。可将二者搭配:在更大规模的 AI 网络中,采用 TD4 leaf 与 TH5 spine。
vs Trident 3TD3 最高支持 100G 端口;TD4 是现代的 400G 升级路径。可直接兼容 OcNOS-DC。
iPo-DWDM 优势QSFP-DD 光纤笼,具备支持 400G ZR/ZR+ 相干的功耗预算。无需转发器机架即可实现城域 DCI。
02
深入芯片内部
数据中心 leaf 级通用芯片

Trident 4:专为 DC leaf 角色打造。

The BCM56780 Trident 4 是 Broadcom 的 12.8 Tbps DC-leaf 通用 ASIC:容量为 Tomahawk 4 的一半,但单端口成本大幅更低。原生基数为 32 × 400G (或通过 breakout 实现 64 × 200G、128 × 100G)。基于 TSMC 7 nm 工艺、采用 50G PAM4 SerDes:256 lane,每个 QSFP-DD cage 8 lane。

为何 TD4 是一款专用于 leaf 的芯片,而非更小型的 TH 系列芯片: 针对东西向转发而非 spine 汇聚进行了优化。更小的缓冲池(匹配 leaf 工作负载模式)、针对 VXLAN/EVPN VTEP 角色更紧凑的表规模、每端口更低的功耗。这种取舍是经过深思熟虑的。TD4 不适合作为 16k-GPU 集群的 spine,但它正是这种集群的理想 leaf。

已与 Broadcom 的 BCM56780 产品页面.

ProcessTSMC N7 SeriesStrataXGS RoleDC Leaf SerDes50G PAM4 · 256 通道 光模块iPo-DWDM 就绪

· 32 × 400G 是怎样的形态

BCM56780 裸片12.8 Tbps
256 lane × 50G PAM4 = 12.8 Tbps。每个 cage 8 lane → 400G。1RU 设备 · 约 47 W/cage 的功耗预算可支持 400G ZR 相干。
四项关键设计选择

为何 TD4 是现代 DC leaf 的理想形态。

与 TH 系列有着刻意为之的差异,每项选择都针对 leaf 工作负载而非 spine 容量进行优化。

PRINCIPLE 01

为东西向流量量身定制。

1RU 内提供 12.8 Tbps,正是 DC leaf 的天然形态:可承载 32 × 400G 上行至 spine,外加 64 × 100G 下行至服务器(经 breakout 拆分),无需为用不上的容量过度配置芯片。

12.8 Tbps · 1RU
PRINCIPLE 02

iPo-DWDM 光笼预算。

AS9726-32DB 与 S9300-32D 上的 QSFP-DD 笼位按约 47 W/端口设计,足以支持 400G ZR 和 OpenZR+ 可插拔相干光模块。将相干模块直接插入 leaf,即可实现免转发器的城域 DCI。

约 47 W/笼位 · 支持 400G ZR
PRINCIPLE 03

线速 EVPN-VXLAN。

硬件加速的 VXLAN 封装/解封装,配合规范的 VTEP 扩展能力。在 leaf 上实现 ESI-LAG 多归属、对称/非对称 IRB,以及 OcNOS-DC 上完整的 BGP EVPN 控制平面。

VXLAN VTEP · ESI-LAG
PRINCIPLE 04

与 spine 采用相同的 NOS。

运行在 TH4 和 TH5 spine 上的同一套 OcNOS-DC 镜像,同样运行在 TD4 leaf 上。整个 fabric 共用一套配置模型、一个自动化界面、一条遥测管线。无需维护 leaf 专用的 OS。

OcNOS-DC · 统一镜像
03
代际跨越
Trident 3 → Trident 4

容量翻两番。端口速率翻两番。同样的数据中心 leaf 任务。

TD3-X7(3.2 Tbps · 32×100G · 16 nm · 25G NRZ)是 2018–2022 年代的主力 leaf。TD4 在相同的 1RU 占用空间内将规格指标翻了四倍。角色并未改变:现代 DC leaf 只是变得更大了。

交换容量
3.2 Tbps 12.8 Tbps

在相同 1RU 下容量提升 4 倍。相同的机架空间,四倍的吞吐量。

原生端口速率
100G QSFP28 400G QSFP-DD

每端口速率提升 4 倍。同样的 32 端口基数,但每端口承载量翻四倍。

制程节点
16 nm 7 nm

两级制程收缩。每 Gbps 功耗大幅下降:正是 400G ZR 相干所需。

相干光模块
SR/LR 可插拔模块 400G ZR/ZR+

QSFP-DD 笼位预算可承载相干光模块。iPo-DWDM 是 TD4 时代的产物。

Continuity: 同一个 OcNOS-DC 镜像可同时运行在 TD3 和 TD4 上。存量网络升级可完整保留 EVPN 配置、BGP peering、gNMI 订阅和 Ansible playbook:容量翻两番,运维模型保持不变。 Trident 3 页面 →
04
OcNOS-DC 交付内容
此芯片上运行 OcNOS-DC

运营商级叶层。相干光模块。无损 RoCEv2。

TD4 leaf 获得与 spine 相同的 OcNOS-DC 功能面,并额外配备 iPo-DWDM 机制,使 leaf 在兼作城域扩展点时实现免转发器的 DCI。

EVPN-VXLAN Leaf

采用对称/非对称 IRB 的 BGP EVPN。

在 leaf 上运行完整的 RFC 7432 EVPN 控制平面。支持 ESI-LAG 多归属以实现服务器主/主接入、批量撤销收敛以及 route-target 自动派生。TH spine 与 TD leaf 共用同一 EVPN 镜像,因此可直接建立对等。

iPo-DWDM

400G ZR / ZR+ 直接接入笼内。

可插拔相干光模块支持完整的 DWDM 调谐、FEC 调谐以及 OIF/CMIS 管理,全部通过 OcNOS gNMI 驱动。城域 DCI 无需转发器机框。

无损 RoCEv2

PFC + ECN + DCQCN.

叶交换机上提供完整 RoCEv2 工具集:默认配置与 TH5 spine 一致,均针对 xCCL (NCCL / RCCL / oneCCL) 集体通信调优。

流式遥测

gNMI / OpenConfig.

每端口计数器、光层状态(针对 ZR 的 BER、色散、OSNR)、PFC pause 计数。可接入 Prometheus/Grafana。

真实网络

BGP · OSPF · IS-IS · SR-MPLS.

leaf 上的完整路由协议栈。将其视为真正的路由器,而非扁平的 L2 交换机。

已验证的特性范围

与 fabric 其余部分采用相同的 OcNOS-DC 镜像。

Layer 3 路由 · L1/L2 · AI/ML fabric 原语 · 组播 · QoS · 安全 · 硬件 · 管理。各平台的验证情况可在公开的 OcNOS Feature Matrix 上查看。

EVPN-VXLAN ESI-LAG RoCEv2 / PFC DCQCN 400G ZR / ZR+ BGP / OSPF / IS-IS SR-MPLS gNMI / NETCONF ZTP
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

通过零接触部署(ZTP)在机架中上线 TD4 leaf。将每一项计数器(包括相干光层状态)流式上送到您的可观测性栈,无需任何粘合脚本。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG CMIS 光模块 Ansible Terraform provider
谁构建了这套技术栈

三类运营商画像。一款 leaf 级芯片。

同一 TD4 芯片,三种不同的 DC 角色,各自利用同一芯片的不同侧面。

DC 运营商 · 400G 叶节点

从 100G fabric 升级到 400G 叶节点。

“我们的 DC leaf 目前是 100G QSFP28。机架密度不断攀升。我们需要 400G 接入 leaf,但还没准备好重新设计 spine。”

TD4 leaf 提供 32×400G,并支持 4× 拆分为 100G 服务器。与其所替换的 TD3 fabric 采用相同的 EVPN-VXLAN 配置语言,相同的 OcNOS-DC 镜像,spine 保持不变。

DC · Leaf 更新换代
城域 DCI · iPo-DWDM

免转发器的城域延伸。

“我们有两个相距 80 km 的数据中心。光网团队希望淘汰转发器机框,网络团队希望它们之间实现 400G,采购方面则希望只用一台设备,而不是两层架构。”

TD4 leaf 直接在 QSFP-DD 笼中插入 400G ZR 光模块。EVPN inter-DC 拉伸 L2/L3 fabric,光层收敛进 IP 层。一台设备,两层合一。

DCI · 城域
AI 集群 · 小型 / 中型

基于单层 fabric 的单 pod GPU 集群。

"我们的集群由 32 台配备 100G NIC 的 GPU 服务器组成。我们不需要多层 Clos 架构,但希望实现无损 RoCEv2,并保留扩容的选择空间。"

两台 TD4 交换机为基于 100G NIC (4× 拆分) 的单 pod 集群构成单层 fabric。服务器到交换机的无损 RoCEv2、针对 xCCL 调优的 DCQCN、面向多归属计算节点的 ESI-LAG。加入 TH4 或 TH5 spine 即可扩展到多 pod。

DC · 小型 AI Fabric
常见问题

架构师真正会问的问题。

两款开放硬件 1RU 32×400G 平台: Edgecore AS9726-32DB and UfiSpace S9300-32D。同一架构级别(基于 Broadcom BCM56780 的 32×QSFP-DD),ODM 不同。两者均预装 ONIE 出货,并运行与 TH5 spine 及 TH4 深缓存汇聚交换机相同的 OcNOS-DC 镜像。
TD4(BCM56780)在 1RU 内提供 12.8 Tbps、32×400G,是 TH4(BCM56996)容量的一半,后者在 2RU 内提供 25.6 Tbps、64×400G。TD4 是 DC-leaf-class 芯片:更小的机箱、更低的功耗、更低的每端口成本。TH4 是 spine/aggregation-class 芯片,可选 HBM 深缓冲。在叶脊网络中:叶节点采用 TD4,脊节点采用 TH4 或 TH5。两者运行相同的 OcNOS-DC 镜像。
可以,前提是集群规模足够小。一台 12.8 Tbps 的 spine 可支持 32-leaf 的单层组网,配备 32×400G 上行,适用于 100G 网卡下 256–512 GPU 规模的集群,或 400G 网卡下至多约 128 GPU 的集群。超出该范围,spine 则需要 TH4(25.6 Tbps)或 TH5(51.2 Tbps)的容量以实现合理的 Clos 扩展。OcNOS-DC 对这三者的处理方式完全一致。
IP-over-DWDM。AS9726-32DB 与 S9300-32D 均具备 QSFP-DD 笼位,具备承载 400G ZR 和 OpenZR+ 可插拔相干光模块的功耗预算。将相干模块直接插入 leaf:无需独立的应答机机框,也无需 muxponder。对于两台 leaf 交换机之间的城域 DCI,光层即可坍缩进 IP 层。节省 CapEx、OpEx 和机架 U 空间。
是的。TD4 拥有与 TH 系列相同的 Broadcom 共享缓冲架构以及 PFC + ECN 原语。OcNOS-DC 在 TD4 平台上提供 PFC、ETS、Dynamic ECN、DCQCN 以及 PFC 死锁检测与恢复功能。自适应路由(DLB)受 ASIC 支持且可配置。12.8 Tbps 的容量使 TD4 非常适合作为中小型 AI 网络架构中的叶节点:从服务器到叶节点实现 RoCEv2 无损传输,再通过 TH4 或 TH5 在脊节点间实现无损传输。
面向当下的 800G 端口(采用 TH5)。面向集群规模低于约 64 台服务器的纯 100G/25G DC leaf(TD3-X7 便宜得多)。面向 SP 边缘或运营商核心(采用 Qumran 或 Jericho:功能集不同)。面向设备必须吸收深度突发的 DCI 场景(采用带 HBM 的 TH4)。TD4 的最佳定位是“具备 iPo-DWDM 余量的现代 400G DC leaf”。
一条数据录入说明。Broadcom 为 Trident 4 公布的部件号为 BCM56780; BCM56990 is Tomahawk 4。HCL 管理记录中可能使用了非标准标签,但 AS9726-32DB 和 S9300-32D 中实际出货的芯片属于 BCM56780 Trident 4 系列。如果精确的部件号对您的采购很重要,请与链接的 Edgecore 和 UfiSpace 数据手册交叉核对。

设计具备 iPo-DWDM 余量的 400G DC leaf?

与 OcNOS 网络架构师进行 30 分钟架构研讨。请带上您的 DC 布局、服务器数量和 DCI 需求,离场时即可获得一份围绕 AS9726-32DB / S9300-32D 的尺寸化 BoM,以及相对于 TH 级 spine 的部署规划。