BCM78900 · TSMC 5 nm · 自 2023 年 3 月起出货

Broadcom Tomahawk 5 Tomahawk 5 交换机三款 800G 开放平台，已在 OcNOS-DC 上完成验证。

Q: OcNOS-DC 在 TH5 上启用了哪些社区版 SONiC 所不具备的能力？

在 TH5 上，OcNOS-DC 已针对 AI 网络架构预调优：基于 L3 的 PFC、ETS、Dynamic ECN、DLB 反应式路径再平衡、DLB 随机流、PFC 死锁检测与恢复、xCCL 对齐的缓冲配置文件、DCBX LLDP。在同一芯片上，它还运行完整的运营商级三层协议栈（BGP、OSPF、IS-IS、SR-MPLS、EVPN-VXLAN），而纯 AI 协议栈通常并不涵盖这些。在 8 个类别中验证了 215 项功能，每一项均可在公开的 OcNOS Feature Matrix 上核实。

Edgecore AIS800-64D、UfiSpace S9321-64E 和 S9321-64EO：相同的芯片、相同的 OcNOS-DC 镜像、三条采购路径。为正在挑选 Tomahawk 5 交换机的工程师提供规格、决策规则以及 OcNOS-DC 特性面。

01交换机 02深入芯片内部 03代际跨越 04OcNOS-DC

预约架构评审试用 OcNOS VM

OcNOS-DC · AIS800-64D · Tomahawk 5

$show version

OcNOS-DC 7.0 on Tomahawk 5 (BCM78900)

Platform: Edgecore AIS800-64D 64 × 800G

$show qos pfc int eth1/1

优先级流量控制：RoCEv2 通道

Pri 3 lossless ✓ 已启用

Pri 4 lossless ✓ 已启用

Wdog deadlock ✓ armed

$show ecn dcqcn profile

配置文件 ai-fabric-ncc1

Kmin 200 KB Kmax 800 KB

$show dlb status

Mode 反应式路径再平衡

Rebind 64 µs flowlet

活跃 14,832 条流 ✓ 已均衡

51.2Tbps

交换容量

64×800G

原生端口密度

3SKUs

OcNOS-Validated

2ODMs

Edgecore · UfiSpace

5nm

TSMC N5 工艺

交换机

运行 Tomahawk 5 的开放硬件

三款 800G 平台。两家 ODM。同一套 OcNOS-DC 镜像。

Two hardware designs, three SKUs. All three ship ONIE pre-loaded and run the same OcNOS-DC image. The differences are form factor (QSFP-DD vs OSFP), branding (AI-fabric SKU vs general-DC SKU), and which optics ecosystem the deployment is built around. Each card links to the full vendor datasheet (PDF, hosted locally).

Edgecore· DCS560 平台家族

AI fabric 骨干层

AIS800-64D

经 OcNOS-DC 验证 · 预装 ONIE

端口: 64 × QSFP-DD800拆分：2×400 / 4×200 / 8×100（320 个逻辑端口）
Form: 2RU
Power: 2× 3000 W AC/DC 冗余每个 QSFP-DD 端口 30 W
CPU: Intel Xeon D1713NTE

▌ 适用场景

GPU 集群 AI fabric。采用 AI-fabric SKU 定位的 Edgecore DCS560 机箱。

Edgecore AIS800-64D 数据手册 PDF

UfiSpace· S9321 平台系列

AI fabric 骨干层

S9321-64E

经 OcNOS-DC 验证 · 预装 ONIE

端口: 64 × QSFP-DD (200/400/800G)拆分：2×400 / 4×200 / 8×100
Form: 2RU · 23.72 kg
Power: 典型 913 W（不含光模块）每个 QSFP-DD 端口 30 W
CPU: Intel Icelake-D 4 核 · 32 GB DDR4

▌ 适用场景

大规模、低熵的AI流量。UfiSpace将64E定位用于以AllReduce为主的流量，其中TH5自适应路由是设计的核心。

UfiSpace S9321-64E 数据手册 PDF

UfiSpace· S9321 平台系列

800G DCI · 相干光模块

S9321-64EO

经 OcNOS-DC 验证 · 预装 ONIE

端口: 64 × OSFP (200/400/800G)拆分：2×400 / 4×200 / 8×100
Form: 2RU · 23.74 kg
Power: 925 W typical · 200-240 V AC用于更高功率光模块的 OSFP 笼
CPU: Intel Icelake-D · 32 GB DDR4

▌ 适用场景

800G ZR/ZR+ 相干或其他更高功率模块类别。64E 采用 OSFP 形态：当光模块决定笼位选择时即可选用。

UfiSpace S9321-64EO 数据手册 PDF

· How to choose between the three

AIS800 与 S9321-64E 对比同款 TH5 芯片,双 ODM 来源。Edgecore DCS560 (AIS800-64D) 与 UfiSpace S9321：面向超大规模与 NeoCloud 采购的双源 BoM。

QSFP-DD vs OSFPQSFP-DD (S9321-64E and AIS800-64D) for the high-volume optics ecosystem. OSFP (S9321-64EO) for higher-power module classes including 800G ZR/ZR+ coherent.

Edgecore vs UfiSpace两者均为与 IP Infusion 深度协同设计的开放硬件 ODM。可依据您的 ODM 合作关系、RMA 物流或 BoM 经济性进行选择。

单一厂商风险两家厂商均提供 TH5 平台，意味着双源 BoM 切实可行，这对超大规模和 NeoCloud 采购至关重要。

深入芯片内部

单芯片 51.2 Tbps 为你带来什么

Tomahawk 5：Broadcom 的旗舰通用交换 ASIC。

The BCM78900 是一颗 5 nm 单片裸片，提供 51.2 Tbps 的交换容量，可原生支持 64 个 800GbE 端口、128 个 400G 端口或 256 个 200G 端口。它是 Broadcom 首款 5 nm 通用交换 IC，也是业界首款在笼位上支持 800GbE 的产品。 512 条 SerDes 通道，以 100G PAM4 运行：与 Tomahawk 4 相同的通道数量，每通道速率翻倍。

除了原始容量之外，还有三项架构选择使 TH5 成为大多数生产级 AI 组网底层所采用的芯片： 共享缓冲架构 在硬件层吸收 xCCL (NCCL / RCCL / oneCCL) 集体通信微突发 认知路由 （DLB）可在 ASIC 中重新绑定大象流，配合 5 nm 的散热余量，使 30 W 的 QSFP-DD800 笼位无需逐端口主动散热即可运行。

规格可对照 Broadcom 公开资料进行验证 BCM78900 产品页面.

ProcessTSMC N5 SeriesStrataXGS 缓存共享、RDMA 调优 Routing认知式 · DLB Shipping自 2023 年 3 月起

Broadcom Tomahawk 5 (BCM78900) 端口基数以 64 个端口的网格形式呈现，每个端口为 800G QSFP-DD，单芯片合计提供 51.2 Tbps 的交换容量 — 64 x 800G 的构成：BCM78900 芯片上 512 条 100G PAM4 通道，合计 51.2 Tbps。

四项关键设计选择

为何自 2024 年以来几乎每一个开放 AI fabric 都用上了 TH5。

夺人眼球的指标数字会登上新闻头条。但这四项工程选择，才是 AI fabric 架构师真正关心的。

原则 01

通道数相同，速率翻倍。

TH5 与 TH4 一样配备 512 条 SerDes 通道，但以 100G PAM4 而非 50G 运行。吞吐量翻倍源于既有基础设施的提速，而非额外增加通道。

100G PAM4 · 106 Gbps

原则 02

共享缓存，而非分区。

全部 64 个端口共享的报文内存池、而非按端口划分。某一端口上的 xCCL AllReduce 微突发会被吸收进全局 fabric 池,而不会触发 tail-drop。这就是 TH5 在 RoCEv2 上胜出的关键所在。

共享缓冲 · RDMA 调优

原则 03

硬件自适应路由。

Broadcom Cognitive Routing 在 ASIC 内检测拥塞路径并重绑定大象流：无需控制器往返，也无需 ECMP 重新哈希。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式将其开启。

DLB · 64 µs 流片（flowlet）

原则 04

5 nm 散热裕量。

首款 5 nm 通用交换芯片。正是这一制程缩减，使每个 QSFP-DD800 笼位 30 W 的功耗在无需逐端口主动散热的情况下成为可能，包括高功率 800G 光模块和 8×100G breakout。

TSMC N5 · 30 W/port

代际跨越

Tomahawk 4 → Tomahawk 5

单端口速率翻倍。容量翻倍。同样的 64 端口规模。

客观评价:TH4 (25.6 Tbps · 64×400G · 7 nm) 对围绕 400G NIC 构建的集群依然出色。TH5 在每端口 800G 与 AI fabric 原生能力都重要时,才值得占用机柜空间。

交换容量

25.6 Tbps → 51.2 Tbps

在相同机架占用下容量翻倍。相同的 2RU，相同的功耗等级。

逐端口速率

64 × 400G → 64 × 800G

在 IPI 实际平台上保持相同的 64-port radix (AS9736-64D → AIS800-64D / S9321)。每端口带宽翻倍,因此每个 Clos 层承载的流量也翻倍。

制程节点

7 nm → 5 nm

首款 5 nm 通用交换芯片。具备 30 W/端口的热余量，无需主动散热。

每通道 SerDes

50G PAM4 → 100G PAM4

同样的 512 条通道，速率翻倍。吞吐量的翻番源自现有基础设施。

棕地改造保持简洁。 同一份 OcNOS-DC 镜像可运行于 TH3、TH4 和 TH5 平台：配置、自动化和 gNMI 流水线均可沿用。新集群可选 TH5；现有可用的 TH4 则继续保留。

OcNOS-DC 交付内容

此芯片上运行 OcNOS-DC

运营商级 NOS。面向 AI 调优的默认配置。

Tomahawk 5 具备硬件能力。NOS 的职责是将其暴露给运维人员、遥测管线和集群调度器，而无需他们围绕它编写繁复的 CLI 操作。OcNOS-DC 将这些原语作为一等的可配置对象交付，并以 YANG 建模其状态。

无损 RoCEv2

共享缓冲架构，零丢包东西向流量。

OcNOS-DC 出厂即提供针对 xCCL 集体通信模式预调优的 PFC + ETS + Dynamic ECN。在足以拖垮社区版 NOS fabric 的 AllReduce 微突发下,尾时延仍保持有界。TH5 的共享缓冲池吸收在分区缓冲芯片上会发生 tail-drop 的同步多对一流量。

自适应路由

DLB 在 64 µs 内重新绑定 flowlet。

大象流下的 ECMP 哈希冲突是 AI 网络的致命问题。OcNOS-DC 开启 TH5 Cognitive Routing 的 flowlet 重绑定，使 AllReduce 流量自动分散到每条 spine 路径上。

PFC 死锁看门狗

逐端口、逐优先级。自动排空。

在暂停队列周期挂起训练任务之前即可检测到。无需运维人员介入即可自动恢复。

流式遥测

gNMI on-change, OpenConfig YANG.

缓存深度、ECN 标记、PFC 暂停计数：每个阈值都是一个旋钮，每个计数器都是一条传感器路径。可对接 Prometheus、Grafana、OTel。

真实网络

BGP · OSPF · IS-IS · EVPN-VXLAN.

TH5 spine 同时也是一台真正的路由器。在同一款芯片上运行完整的运营商级三层栈：像运维网络其余部分一样运维 AI fabric，而非把它当作黑盒。

已验证的特性范围

涵盖 8 个类别的 215 项功能，取自实时的 OcNOS Feature Matrix。

Layer 3 routing · L1/L2 · AI fabric primitives · Multicast · QoS · Security · Hardware · Management. Every entry verifiable per-platform on the public matrix.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN SR-MPLS BGP / OSPF / IS-IS gNMI / NETCONF ZTP UEC 1.0 就绪

Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

通过零接触部署在机架中启用一台 TH5 spine。将每个计数器流式输出至您的可观测性栈。通过 YANG 建模的配置调整每个阈值。无需任何粘合脚本。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform provider

谁构建了这套技术栈

三类运营商画像。一套芯片 + NOS 组合。

相同的 TH5 裸片、相同的 OcNOS-DC 镜像，对同一架构问题给出三种不同的诠释：如何在不将整个技术栈锁定于单一厂商的前提下，扩展无损东西向流量？

AI 集群运营商

在通用芯片上支持高达 16k-GPU 上限的训练网络。

“我们需要 800G 直连叶节点、无损 RoCEv2，以及在 AllReduce 下不会失控的尾部时延。单一厂商锁定不在考虑范围内。”

TH5 64×800G spine，搭配经 xCCL 调优的 DCQCN 的 RoCEv2、亚毫秒级 DLB 重绑定、PFC 死锁看门狗。与 TH4 相同的 64 端口基数，但每个 spine 端口承载 800G，在同等聚合 fabric 带宽下将 spine-leaf 布线量减半。

DC · AI Fabric SKU

NeoCloud · GPU 即服务

多租户 fabric，BoM 成本可控。

“客户自行选择 GPU。我们无法把织构 BoM 绑定到他们的 NIC 选型上。我们需要一款至少能从两家厂商采购的交换机。”

Three OcNOS-validated TH5 SKUs across two vendors (Edgecore, UfiSpace). VRF-Lite tenant isolation, gNMI per-tenant telemetry, EVPN-VXLAN segmentation. One NOS image, multi-vendor hardware.

DC · Multi-Tenant

超大规模数据中心 · 棕地改造

TH3/TH4 fabric 升级换代，无需整机更换。

"我们已有一套 TH4 网络结构投入生产。下一个训练集群需要 800G 网卡。我们不想为了升级芯片而重新设计整个 NOS 层。"

同一套 OcNOS-DC 镜像运行在 TH3、TH4 和 TH5 平台上。棕地改造可完整保留配置、自动化与 gNMI 管线。UEC 1.0 fabric profile 已为下一代 NIC 提前对齐。

DC · UEC-Ready

完整功能矩阵 AI 网络解决方案参考拓扑硬件兼容性列表

常见问题

架构师关心的问题

哪些 Tomahawk 5 交换机运行 OcNOS-DC？

横跨两家 ODM 的三款开放硬件平台：Edgecore AIS800-64D（DCS560 机箱）、UfiSpace S9321-64E（QSFP-DD）和 S9321-64EO（OSFP）。三者均预装 ONIE 出厂，并运行同一套 OcNOS-DC 镜像：相同的配置、相同的功能面、相同的自动化挂钩。两家供应商意味着双源 BoM 对超大规模和 NeoCloud 采购而言切实可行。

QSFP-DD 与 OSFP：何时需要 S9321-64EO？

QSFP-DD（AIS800-64D 和 S9321-64E）是大规模量产的光模块生态，是数据中心内部短距 800G 的恰当默认选择。OSFP（S9321-64EO）则提供更高功率的笼体，可容纳 QSFP-DD 无法承载的模块类型：用于 DCI 的 800G ZR/ZR+ 相干光模块、更长距离的 DR4/DR8，以及可插拔放大器。当光模块决定了笼体选择时，请选 OSFP；否则在成本和生态广度上 QSFP-DD 更胜一筹。

Tomahawk 5 与 Tomahawk 4 如何对比：我何时该选哪一款？

TH4 为 25.6 Tbps · 64×400G · 7 nm · 50G PAM4。TH5 在相同 64 端口基数下将单端口速率和总交换容量翻倍（51.2 Tbps · 64×800G · 5 nm · 100G PAM4）。决策准则：如果集群需要原生 800G 端口，或每个 spine 端口需要承载两倍带宽（在相同 fabric 总吞吐下将布线规模减半），则选用 TH5。如果设计围绕 400G NIC 和单 pod 规模构建，TH4 仍然非常出色且单端口成本更低。OcNOS-DC 以相同的功能集同时支持二者：存量网络（brownfield）升级保持简洁。

Tomahawk 5 是否支持 Ultra Ethernet（UEC）？

TH5 具备 UEC 1.0 fabric profile 所需的硬件机制：逐包 ECMP、利于 packet-spray 的转发、可容忍乱序交付的共享缓冲调度。UEC 本身主要驻留在 NIC 中；当 UEC NIC 规模出货后，运行 OcNOS-DC 的 TH5 fabric 将能正确承载 UEC 流量。RoCEv2 和 UEC 可在同一交换机上共存：逐个 NIC 迁移集群，无需更换 fabric。

OcNOS-DC 在 TH5 上启用了哪些社区版 SONiC 所不具备的能力？

在 TH5 上，OcNOS-DC 针对 AI 架构出厂即完成预调优：PFC over L3、ETS、Dynamic ECN、DLB Reactive-Path Rebalance、DLB Random-Flow、PFC Deadlock Detection & Recovery、与 xCCL 对齐的缓冲配置文件、DCBX LLDP。在同一芯片上，它还运行一套完整的运营商级 Layer 3 协议栈（BGP、OSPF、IS-IS、SR-MPLS、EVPN-VXLAN），这是纯 AI 协议栈通常无法覆盖的。215 项功能跨 8 个类别完成验证，每一项均可在公开的 OcNOS Feature Matrix 上查证。

在哪些场景下 Tomahawk 5 是错误选择？

SP 边缘、基站网关、1 Tbps 以下汇聚。在这些角色中 64×800G radix 不值得占用机柜空间。SP 路由方面,OcNOS 已验证 Broadcom Qumran (Q2C、Q2C+) 与 Jericho (J2C+);单 pod 形态的 100G/400G DC 叶交换机方面,Trident (TD3-X7、TD4) 经济性更佳。客观评价:TH5 在 800G radix 与 AI fabric 原生能力都重要时才胜出、仅其中之一时则不然。

正在设计 Tomahawk 5 fabric？让我们一起为它定型。

30-minute architecture session with an OcNOS network architect. Bring your GPU count, NIC speed, and tier preference, and leave with a sized BoM across all three TH5 SKUs.

预约架构评审试用 OcNOS-DC

数据手册与解决方案简介

深入了解，随身带走。

产品数据手册，以及内容比本页更为深入的简明技术下载资料。

数据手册

OcNOS-DC 数据手册

完整的 OcNOS-DC 规格：EVPN-VXLAN 与 Ethernet for AI 功能集、软件 SKU、支持的硬件平台，以及解决方案订购指南。

获取数据手册

解决方案简报

OcNOS 800G 无损 AI Fabric

基于 Broadcom Tomahawk 4/5 spine 的无阻塞 RoCEv2 fabric：SKU 级别、经验证的平台以及部署架构。

获取简报

解决方案简报

EVPN-VXLAN 数据中心网络

carrier-grade 的 leaf-spine data center fabric：对称 IRB、Type-2/Type-5 路由，以及分布式 anycast 网关。

获取简报

解决方案

产品

合作伙伴

资源

公司

服务提供商网络

5G 移动传输

宽带汇聚

城域以太网与汇聚

IP 核心与对等

IP over DWDM（Routed Optical）

AI 网络

Multi-Tenant Fabric

数据中心网络

数据中心互联

DDoS 防护

自动化与 API

Broadcom Tomahawk 5 Tomahawk 5 交换机 三款 800G 开放平台，已在 OcNOS-DC 上完成验证。

三款 800G 平台。两家 ODM。同一套 OcNOS-DC 镜像。

AIS800-64D

S9321-64E

S9321-64EO

· How to choose between the three

Tomahawk 5：Broadcom 的旗舰通用交换 ASIC。

为何自 2024 年以来几乎每一个开放 AI fabric 都用上了 TH5。

通道数相同，速率翻倍。

共享缓存，而非分区。

硬件自适应路由。

5 nm 散热裕量。

单端口速率翻倍。容量翻倍。同样的 64 端口规模。

运营商级 NOS。面向 AI 调优的默认配置。

共享缓冲架构，零丢包东西向流量。

DLB 在 64 µs 内重新绑定 flowlet。

逐端口、逐优先级。自动排空。

gNMI on-change, OpenConfig YANG.

BGP · OSPF · IS-IS · EVPN-VXLAN.

涵盖 8 个类别的 215 项功能，取自实时的 OcNOS Feature Matrix。

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

三类运营商画像。一套芯片 + NOS 组合。

在通用芯片上支持高达 16k-GPU 上限的训练网络。

多租户 fabric，BoM 成本可控。

TH3/TH4 fabric 升级换代，无需整机更换。

架构师关心的问题

正在设计 Tomahawk 5 fabric？让我们一起为它定型。

深入了解，随身带走。

OcNOS-DC 数据手册

OcNOS 800G 无损 AI Fabric

EVPN-VXLAN 数据中心网络

Broadcom Tomahawk 5 Tomahawk 5 交换机三款 800G 开放平台，已在 OcNOS-DC 上完成验证。