BCM78900 · TSMC 5 nm · 自 2023 年 3 月起出货

Broadcom Tomahawk 5 Tomahawk 5 交换机 三款 800G 开放平台,已在 OcNOS-DC 上完成验证。

Edgecore AIS800-64D、UfiSpace S9321-64E 和 S9321-64EO:相同的芯片、相同的 OcNOS-DC 镜像、三条采购路径。为正在挑选 Tomahawk 5 交换机的工程师提供规格、决策规则以及 OcNOS-DC 特性面。

51.2Tbps
交换容量
64×800G
原生端口密度
3SKUs
OcNOS-Validated
2ODMs
Edgecore · UfiSpace
5nm
TSMC N5 工艺
01
交换机
运行 Tomahawk 5 的开放硬件

三款 800G 平台。两家 ODM。同一套 OcNOS-DC 镜像。

两种硬件设计,四款 SKU。四款均预装 ONIE 出厂,并运行同一套 OcNOS-DC 镜像。差异在于形态(QSFP-DD 与 OSFP)、品牌定位(AI 网络 SKU 与通用 DC SKU),以及部署所围绕构建的光模块生态。每张卡片均链接至完整的厂商数据手册(PDF,本地托管)。

Edgecore· DCS560 平台家族
AI fabric 骨干层

AIS800-64D

经 OcNOS-DC 验证 · 预装 ONIE
Ports
64 × QSFP-DD800拆分:2×400 / 4×200 / 8×100(320 个逻辑端口)
Form
2RU
Power
2× 3000 W AC/DC 冗余每个 QSFP-DD 端口 30 W
CPU
Intel Xeon D1713NTE
▌ 适用场景

GPU 集群 AI fabric。采用 AI-fabric SKU 定位的 Edgecore DCS560 机箱。

UfiSpace· S9321 平台系列
AI/ML fabric 骨干

S9321-64E

经 OcNOS-DC 验证 · 预装 ONIE
Ports
64 × QSFP-DD (200/400/800G)拆分:2×400 / 4×200 / 8×100
Form
2RU · 23.72 kg
Power
典型 913 W(不含光模块)每个 QSFP-DD 端口 30 W
CPU
Intel Icelake-D 4 核 · 32 GB DDR4
▌ 适用场景

大型、低熵的 AI/ML 流量。UfiSpace 将 64E 定位于以 AllReduce 为主的流量场景,其中 TH5 自适应路由是设计核心。

UfiSpace· S9321 平台系列
800G DCI · 相干光模块

S9321-64EO

经 OcNOS-DC 验证 · 预装 ONIE
Ports
64 × OSFP (200/400/800G)拆分:2×400 / 4×200 / 8×100
Form
2RU · 23.74 kg
Power
典型功耗 925 W · 200–240 V AC用于更高功率光模块的 OSFP 笼
CPU
Intel Icelake-D · 32 GB DDR4
▌ 适用场景

800G ZR/ZR+ 相干或其他更高功率模块类别。64E 采用 OSFP 形态:当光模块决定笼位选择时即可选用。

· 如何在四者之间做出选择

AIS800 与 S9321-64E 对比同款 TH5 芯片,双 ODM 来源。Edgecore DCS560 (AIS800-64D) 与 UfiSpace S9321:面向超大规模与 NeoCloud 采购的双源 BoM。
QSFP-DD vs OSFP面向大批量光模块生态系统的 QSFP-DD (S9321-64E + 两款 Edgecore SKU)。面向更高功率模块类别 (含 800G ZR/ZR+ 相干) 的 OSFP (S9321-64EO)。
Edgecore vs UfiSpace两者均为与 IP Infusion 深度协同设计的开放硬件 ODM。可依据您的 ODM 合作关系、RMA 物流或 BoM 经济性进行选择。
单一厂商风险两家厂商均提供 TH5 平台,意味着双源 BoM 切实可行,这对超大规模和 NeoCloud 采购至关重要。
02
深入芯片内部
单芯片 51.2 Tbps 为你带来什么

Tomahawk 5:Broadcom 的旗舰通用交换 ASIC。

The BCM78900 是一颗 5 nm 单片裸片,提供 51.2 Tbps 的交换容量,可原生支持 64 个 800GbE 端口、128 个 400G 端口或 256 个 200G 端口。它是 Broadcom 首款 5 nm 通用交换 IC,也是业界首款在笼位上支持 800GbE 的产品。 512 条 SerDes 通道,以 100G PAM4 运行:与 Tomahawk 4 相同的通道数量,每通道速率翻倍。

除了原始容量之外,还有三项架构选择使 TH5 成为大多数生产级 AI 组网底层所采用的芯片: 共享缓冲架构 在硬件层吸收 xCCL (NCCL / RCCL / oneCCL) 集体通信微突发 认知路由 (DLB)可在 ASIC 中重新绑定大象流,配合 5 nm 的散热余量,使 30 W 的 QSFP-DD800 笼位无需逐端口主动散热即可运行。

规格可对照 Broadcom 公开资料进行验证 BCM78900 产品页面.

ProcessTSMC N5 SeriesStrataXGS Buffer共享、RDMA 调优 Routing认知式 · DLB Shipping自 2023 年 3 月起

· 64 × 800G 是怎样的形态

BCM78900 裸片51.2 Tbps
512 通道 × 100G PAM4 = 51.2 Tbps。每笼八通道 → 800G。算术运算即架构。
四项关键设计选择

为何自 2024 年以来几乎每一个开放 AI fabric 都用上了 TH5。

夺人眼球的指标数字会登上新闻头条。但这四项工程选择,才是 AI fabric 架构师真正关心的。

PRINCIPLE 01

通道数相同,速率翻倍。

TH5 与 TH4 一样配备 512 条 SerDes 通道,但以 100G PAM4 而非 50G 运行。吞吐量翻倍源于既有基础设施的提速,而非额外增加通道。

100G PAM4 · 106 Gbps
PRINCIPLE 02

共享缓存,而非分区。

全部 64 个端口共享的报文内存池、而非按端口划分。某一端口上的 xCCL AllReduce 微突发会被吸收进全局 fabric 池,而不会触发 tail-drop。这就是 TH5 在 RoCEv2 上胜出的关键所在。

Shared-buffer · RDMA-tuned
PRINCIPLE 03

硬件自适应路由。

Broadcom Cognitive Routing 在 ASIC 内检测拥塞路径并重绑定大象流:无需控制器往返,也无需 ECMP 重新哈希。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式将其开启。

DLB · 64 µs 流片(flowlet)
PRINCIPLE 04

5 nm 散热裕量。

首款 5 nm 通用交换芯片。正是这一制程缩减,使每个 QSFP-DD800 笼位 30 W 的功耗在无需逐端口主动散热的情况下成为可能,包括高功率 800G 光模块和 8×100G breakout。

TSMC N5 · 30 W/port
03
代际跨越
Tomahawk 4 → Tomahawk 5

单端口速率翻倍。容量翻倍。同样的 64 端口规模。

客观评价:TH4 (25.6 Tbps · 64×400G · 7 nm) 对围绕 400G NIC 构建的集群依然出色。TH5 在每端口 800G 与 AI fabric 原生能力都重要时,才值得占用机柜空间。

交换容量
25.6 Tbps 51.2 Tbps

在相同机架占用下容量翻倍。相同的 2RU,相同的功耗等级。

逐端口速率
64 × 400G 64 × 800G

在 IPI 实际平台上保持相同的 64-port radix (AS9736-64D → AIS800-64D / S9321)。每端口带宽翻倍,因此每个 Clos 层承载的流量也翻倍。

制程节点
7 nm 5 nm

首款 5 nm 通用交换芯片。具备 30 W/端口的热余量,无需主动散热。

每通道 SerDes
50G PAM4 100G PAM4

同样的 512 条通道,速率翻倍。吞吐量的翻番源自现有基础设施。

棕地改造保持简洁。 同一份 OcNOS-DC 镜像可运行于 TH3、TH4 和 TH5 平台:配置、自动化和 gNMI 流水线均可沿用。新集群可选 TH5;现有可用的 TH4 则继续保留。
04
OcNOS-DC 交付内容
此芯片上运行 OcNOS-DC

运营商级 NOS。面向 AI 调优的默认配置。

Tomahawk 5 具备硬件能力。NOS 的职责是将其暴露给运维人员、遥测管线和集群调度器,而无需他们围绕它编写繁复的 CLI 操作。OcNOS-DC 将这些原语作为一等的可配置对象交付,并以 YANG 建模其状态。

无损 RoCEv2

共享缓冲架构,零丢包东西向流量。

OcNOS-DC 出厂即提供针对 xCCL 集体通信模式预调优的 PFC + ETS + Dynamic ECN。在足以拖垮社区版 NOS fabric 的 AllReduce 微突发下,尾时延仍保持有界。TH5 的共享缓冲池吸收在分区缓冲芯片上会发生 tail-drop 的同步多对一流量。

Adaptive Routing

DLB 在 64 µs 内重新绑定 flowlet。

大象流下的 ECMP 哈希冲突是 AI 网络的致命问题。OcNOS-DC 开启 TH5 Cognitive Routing 的 flowlet 重绑定,使 AllReduce 流量自动分散到每条 spine 路径上。

PFC 死锁看门狗

Per-port, per-priority. Auto-drain.

在暂停队列周期挂起训练任务之前即可检测到。无需运维人员介入即可自动恢复。

流式遥测

gNMI on-change, OpenConfig YANG.

缓存深度、ECN 标记、PFC 暂停计数:每个阈值都是一个旋钮,每个计数器都是一条传感器路径。可对接 Prometheus、Grafana、OTel。

真实网络

BGP · OSPF · IS-IS · EVPN-VXLAN.

TH5 spine 同时也是一台真正的路由器。在同一款芯片上运行完整的运营商级三层栈:像运维网络其余部分一样运维 AI fabric,而非把它当作黑盒。

已验证的特性范围

涵盖 8 个类别的 215 项功能,取自实时的 OcNOS Feature Matrix。

三层路由 · L1/L2 · AI/ML fabric 原语 · 组播 · QoS · 安全 · 硬件 · 管理。每一条目均可在公开矩阵上按平台逐项验证。

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN SR-MPLS BGP / OSPF / IS-IS gNMI / NETCONF ZTP UEC 1.0 就绪
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

通过零接触部署在机架中启用一台 TH5 spine。将每个计数器流式输出至您的可观测性栈。通过 YANG 建模的配置调整每个阈值。无需任何粘合脚本。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform provider
谁构建了这套技术栈

三类运营商画像。一套芯片 + NOS 组合。

相同的 TH5 裸片、相同的 OcNOS-DC 镜像,对同一架构问题给出三种不同的诠释:如何在不将整个技术栈锁定于单一厂商的前提下,扩展无损东西向流量?

AI 集群运营商

在通用芯片上支持高达 16k-GPU 上限的训练网络。

“我们需要 800G 直连叶节点、无损 RoCEv2,以及在 AllReduce 下不会失控的尾部时延。单一厂商锁定不在考虑范围内。”

TH5 64×800G spine,搭配经 xCCL 调优的 DCQCN 的 RoCEv2、亚毫秒级 DLB 重绑定、PFC 死锁看门狗。与 TH4 相同的 64 端口基数,但每个 spine 端口承载 800G,在同等聚合 fabric 带宽下将 spine-leaf 布线量减半。

DC · AI Fabric SKU
NeoCloud · GPU-as-a-Service

多租户 fabric,BoM 成本可控。

“客户自行选择 GPU。我们无法把织构 BoM 绑定到他们的 NIC 选型上。我们需要一款至少能从两家厂商采购的交换机。”

跨两家厂商(Edgecore、UfiSpace)的四款经 OcNOS 验证的 TH5 SKU。VRF-Lite 租户隔离、gNMI 按租户遥测、EVPN-VXLAN 分段。一套 NOS 镜像,多厂商硬件。

DC · Multi-Tenant
超大规模数据中心 · 棕地改造

TH3/TH4 fabric 升级换代,无需整机更换。

"我们已有一套 TH4 网络结构投入生产。下一个训练集群需要 800G 网卡。我们不想为了升级芯片而重新设计整个 NOS 层。"

同一套 OcNOS-DC 镜像运行在 TH3、TH4 和 TH5 平台上。棕地改造可完整保留配置、自动化与 gNMI 管线。UEC 1.0 fabric profile 已为下一代 NIC 提前对齐。

DC · UEC-Ready
常见问题

架构师真正会问的问题。

横跨两家 ODM 的三款开放硬件平台:Edgecore AIS800-64D(DCS560 机箱)、UfiSpace S9321-64E(QSFP-DD)和 S9321-64EO(OSFP)。三者均预装 ONIE 出厂,并运行同一套 OcNOS-DC 镜像:相同的配置、相同的功能面、相同的自动化挂钩。两家供应商意味着双源 BoM 对超大规模和 NeoCloud 采购而言切实可行。
QSFP-DD(AIS800-64D 和 S9321-64E)是大规模量产的光模块生态,是数据中心内部短距 800G 的恰当默认选择。OSFP(S9321-64EO)则提供更高功率的笼体,可容纳 QSFP-DD 无法承载的模块类型:用于 DCI 的 800G ZR/ZR+ 相干光模块、更长距离的 DR4/DR8,以及可插拔放大器。当光模块决定了笼体选择时,请选 OSFP;否则在成本和生态广度上 QSFP-DD 更胜一筹。
TH4 为 25.6 Tbps · 64×400G · 7 nm · 50G PAM4。TH5 在相同 64 端口基数下将单端口速率和总交换容量翻倍(51.2 Tbps · 64×800G · 5 nm · 100G PAM4)。决策准则:如果集群需要原生 800G 端口,或每个 spine 端口需要承载两倍带宽(在相同 fabric 总吞吐下将布线规模减半),则选用 TH5。如果设计围绕 400G NIC 和单 pod 规模构建,TH4 仍然非常出色且单端口成本更低。OcNOS-DC 以相同的功能集同时支持二者:存量网络(brownfield)升级保持简洁。
TH5 具备 UEC 1.0 fabric profile 所需的硬件机制:逐包 ECMP、利于 packet-spray 的转发、可容忍乱序交付的共享缓冲调度。UEC 本身主要驻留在 NIC 中;当 UEC NIC 规模出货后,运行 OcNOS-DC 的 TH5 fabric 将能正确承载 UEC 流量。RoCEv2 和 UEC 可在同一交换机上共存:逐个 NIC 迁移集群,无需更换 fabric。
在 TH5 上,OcNOS-DC 已针对 AI 网络架构预调优:基于 L3 的 PFC、ETS、Dynamic ECN、DLB 反应式路径再平衡、DLB 随机流、PFC 死锁检测与恢复、xCCL 对齐的缓冲配置文件、DCBX LLDP。在同一芯片上,它还运行完整的运营商级三层协议栈(BGP、OSPF、IS-IS、SR-MPLS、EVPN-VXLAN),而纯 AI 协议栈通常并不涵盖这些。在 8 个类别中验证了 215 项功能,每一项均可在公开的 OcNOS Feature Matrix 上核实。
SP 边缘、基站网关、1 Tbps 以下汇聚。在这些角色中 64×800G radix 不值得占用机柜空间。SP 路由方面,OcNOS 已验证 Broadcom Qumran (Q2C、Q2C+) 与 Jericho (J2C+);单 pod 形态的 100G/400G DC 叶交换机方面,Trident (TD3-X7、TD4) 经济性更佳。客观评价:TH5 在 800G radix 与 AI fabric 原生能力都重要时才胜出、仅其中之一时则不然。

正在设计 Tomahawk 5 fabric?让我们一起为它定型。

与 OcNOS 网络架构师进行 30 分钟的架构研讨。请带上您的 GPU 数量、NIC 速率和层级偏好,离场时即可获得一份覆盖全部四款 TH5 SKU 的定制 BoM。