AIS800-64D
- Ports
- 64 × QSFP-DD800拆分:2×400 / 4×200 / 8×100(320 个逻辑端口)
- Form
- 2RU
- Power
- 2× 3000 W AC/DC 冗余每个 QSFP-DD 端口 30 W
- CPU
- Intel Xeon D1713NTE
GPU 集群 AI fabric。采用 AI-fabric SKU 定位的 Edgecore DCS560 机箱。
Edgecore AIS800-64D、UfiSpace S9321-64E 和 S9321-64EO:相同的芯片、相同的 OcNOS-DC 镜像、三条采购路径。为正在挑选 Tomahawk 5 交换机的工程师提供规格、决策规则以及 OcNOS-DC 特性面。
两种硬件设计,四款 SKU。四款均预装 ONIE 出厂,并运行同一套 OcNOS-DC 镜像。差异在于形态(QSFP-DD 与 OSFP)、品牌定位(AI 网络 SKU 与通用 DC SKU),以及部署所围绕构建的光模块生态。每张卡片均链接至完整的厂商数据手册(PDF,本地托管)。
GPU 集群 AI fabric。采用 AI-fabric SKU 定位的 Edgecore DCS560 机箱。
大型、低熵的 AI/ML 流量。UfiSpace 将 64E 定位于以 AllReduce 为主的流量场景,其中 TH5 自适应路由是设计核心。
800G ZR/ZR+ 相干或其他更高功率模块类别。64E 采用 OSFP 形态:当光模块决定笼位选择时即可选用。
The BCM78900 是一颗 5 nm 单片裸片,提供 51.2 Tbps 的交换容量,可原生支持 64 个 800GbE 端口、128 个 400G 端口或 256 个 200G 端口。它是 Broadcom 首款 5 nm 通用交换 IC,也是业界首款在笼位上支持 800GbE 的产品。 512 条 SerDes 通道,以 100G PAM4 运行:与 Tomahawk 4 相同的通道数量,每通道速率翻倍。
除了原始容量之外,还有三项架构选择使 TH5 成为大多数生产级 AI 组网底层所采用的芯片: 共享缓冲架构 在硬件层吸收 xCCL (NCCL / RCCL / oneCCL) 集体通信微突发 认知路由 (DLB)可在 ASIC 中重新绑定大象流,配合 5 nm 的散热余量,使 30 W 的 QSFP-DD800 笼位无需逐端口主动散热即可运行。
规格可对照 Broadcom 公开资料进行验证 BCM78900 产品页面.
夺人眼球的指标数字会登上新闻头条。但这四项工程选择,才是 AI fabric 架构师真正关心的。
TH5 与 TH4 一样配备 512 条 SerDes 通道,但以 100G PAM4 而非 50G 运行。吞吐量翻倍源于既有基础设施的提速,而非额外增加通道。
100G PAM4 · 106 Gbps全部 64 个端口共享的报文内存池、而非按端口划分。某一端口上的 xCCL AllReduce 微突发会被吸收进全局 fabric 池,而不会触发 tail-drop。这就是 TH5 在 RoCEv2 上胜出的关键所在。
Shared-buffer · RDMA-tunedBroadcom Cognitive Routing 在 ASIC 内检测拥塞路径并重绑定大象流:无需控制器往返,也无需 ECMP 重新哈希。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式将其开启。
DLB · 64 µs 流片(flowlet)首款 5 nm 通用交换芯片。正是这一制程缩减,使每个 QSFP-DD800 笼位 30 W 的功耗在无需逐端口主动散热的情况下成为可能,包括高功率 800G 光模块和 8×100G breakout。
TSMC N5 · 30 W/port客观评价:TH4 (25.6 Tbps · 64×400G · 7 nm) 对围绕 400G NIC 构建的集群依然出色。TH5 在每端口 800G 与 AI fabric 原生能力都重要时,才值得占用机柜空间。
在相同机架占用下容量翻倍。相同的 2RU,相同的功耗等级。
在 IPI 实际平台上保持相同的 64-port radix (AS9736-64D → AIS800-64D / S9321)。每端口带宽翻倍,因此每个 Clos 层承载的流量也翻倍。
首款 5 nm 通用交换芯片。具备 30 W/端口的热余量,无需主动散热。
同样的 512 条通道,速率翻倍。吞吐量的翻番源自现有基础设施。
Tomahawk 5 具备硬件能力。NOS 的职责是将其暴露给运维人员、遥测管线和集群调度器,而无需他们围绕它编写繁复的 CLI 操作。OcNOS-DC 将这些原语作为一等的可配置对象交付,并以 YANG 建模其状态。
OcNOS-DC 出厂即提供针对 xCCL 集体通信模式预调优的 PFC + ETS + Dynamic ECN。在足以拖垮社区版 NOS fabric 的 AllReduce 微突发下,尾时延仍保持有界。TH5 的共享缓冲池吸收在分区缓冲芯片上会发生 tail-drop 的同步多对一流量。
大象流下的 ECMP 哈希冲突是 AI 网络的致命问题。OcNOS-DC 开启 TH5 Cognitive Routing 的 flowlet 重绑定,使 AllReduce 流量自动分散到每条 spine 路径上。
在暂停队列周期挂起训练任务之前即可检测到。无需运维人员介入即可自动恢复。
缓存深度、ECN 标记、PFC 暂停计数:每个阈值都是一个旋钮,每个计数器都是一条传感器路径。可对接 Prometheus、Grafana、OTel。
TH5 spine 同时也是一台真正的路由器。在同一款芯片上运行完整的运营商级三层栈:像运维网络其余部分一样运维 AI fabric,而非把它当作黑盒。
三层路由 · L1/L2 · AI/ML fabric 原语 · 组播 · QoS · 安全 · 硬件 · 管理。每一条目均可在公开矩阵上按平台逐项验证。
通过零接触部署在机架中启用一台 TH5 spine。将每个计数器流式输出至您的可观测性栈。通过 YANG 建模的配置调整每个阈值。无需任何粘合脚本。
相同的 TH5 裸片、相同的 OcNOS-DC 镜像,对同一架构问题给出三种不同的诠释:如何在不将整个技术栈锁定于单一厂商的前提下,扩展无损东西向流量?
“我们需要 800G 直连叶节点、无损 RoCEv2,以及在 AllReduce 下不会失控的尾部时延。单一厂商锁定不在考虑范围内。”
TH5 64×800G spine,搭配经 xCCL 调优的 DCQCN 的 RoCEv2、亚毫秒级 DLB 重绑定、PFC 死锁看门狗。与 TH4 相同的 64 端口基数,但每个 spine 端口承载 800G,在同等聚合 fabric 带宽下将 spine-leaf 布线量减半。
DC · AI Fabric SKU“客户自行选择 GPU。我们无法把织构 BoM 绑定到他们的 NIC 选型上。我们需要一款至少能从两家厂商采购的交换机。”
跨两家厂商(Edgecore、UfiSpace)的四款经 OcNOS 验证的 TH5 SKU。VRF-Lite 租户隔离、gNMI 按租户遥测、EVPN-VXLAN 分段。一套 NOS 镜像,多厂商硬件。
DC · Multi-Tenant"我们已有一套 TH4 网络结构投入生产。下一个训练集群需要 800G 网卡。我们不想为了升级芯片而重新设计整个 NOS 层。"
同一套 OcNOS-DC 镜像运行在 TH3、TH4 和 TH5 平台上。棕地改造可完整保留配置、自动化与 gNMI 管线。UEC 1.0 fabric profile 已为下一代 NIC 提前对齐。
DC · UEC-Ready与 OcNOS 网络架构师进行 30 分钟的架构研讨。请带上您的 GPU 数量、NIC 速率和层级偏好,离场时即可获得一份覆盖全部四款 TH5 SKU 的定制 BoM。