AI Fabric Topologies: Rail-Optimized & Scheduled Designs

你的 fabric 形态决定了你的训练作业的形态。本页阐述 OcNOS-DC 针对其设计的三种参考拓扑:rail-only、rail-optimized 以及调度式三级 Clos,并以 Broadcom Tomahawk 4 和 Tomahawk 5 硬件上具体的端口数量进行规模化呈现。

按 GPU 数量选择,而非按流行术语

AI fabric 拓扑只有一个使命:保持 every 在一次集合通信期间使 GPU 的出站链路饱和,同时又不产生尾延迟离群值。理想的拓扑是能为您的 GPU 数量实现这一点的最小拓扑,并为下一更大规模预留回退路径。下方:OcNOS-DC 当前已验证的三种参考设计,附带具体的端口计算。

256GPUs

仅 Rail 单 pod

一行机柜、八台轨道对齐 ToR。无需 spine 层。两层合并架构。

8 × TH4 叶节点 · 32 GPU/叶节点
1,024GPUs

Rail-optimized leaf-spine

采用轨道对齐的 leaf 加共享 spine 层。轨道间的东西向流量经由 spine;轨道内流量保持本地转发。

32 个 leaf · 8 个 spine · TH4 / TH5 混合组网
4,096GPUs

3 级 Clos 调度型

Leaf、spine、super-spine。端到端无阻塞 1:1 收敛比。每一层均启用 DLB;在 OcNOS 7.1 中实现端到端 GLB。

128 个 leaf · 64 个 spine · 16 个 super-spine(TH5)
16,384GPUs

规模化调度型 fabric

带有超级骨干平面的多 Pod 三级 Clos。专为万亿参数训练级别设计。

512 个叶 · 256 个脊 · 64 个超级脊(TH5 800G)
参考设计 1

轨道优化单 Pod

每台 GPU 服务器配备 8 个 NIC,每个对应一条 "rail",即专用 xCCL (NCCL / RCCL / oneCCL) 集体通信通道。每条 rail 拥有独立的专用叶交换机、因此每台服务器的 8 个 NIC 都落到不同的叶交换机上。跨 rail-N 的 AllReduce 保持在 leaf-N 内部。主导集体通信模式不会对 spine 产生东西向压力。

轨道优化的 AI fabric:8 条轨道、8 个 leaf、共享 spine 层 轨道优化的 AI 网络结构。底部的八台 GPU 服务器各配备八块网卡,分别对齐八台 rail-leaf。每台服务器的 Rail-N 连接至 leaf-N。leaf 之上的 spine 层承载跨轨道流量。占主导地位的 AllReduce 流量保持在单一轨道内,从不经过 spine。 Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf GPU Server 1 8 × NIC · 8 条 rail GPU Server 2 8 × NIC · 8 条 rail GPU Server 3 8 × NIC · 8 条 rail GPU Server 4 8 × NIC · 8 条 rail RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

OcNOS 组件: EVPN-VXLAN underlay、BGP unnumbered、每台叶交换机均运行无损 RoCEv2、spine 层运行 DLB。已在 Edgecore AS9736-64D (TH4) 叶交换机与 AIS800-64D / UfiSpace S9321-64E (TH5) spine 上验证。

调度式对比 Rail-Aligned:规模化时的变化

Rail-optimized 架构在大约 1k 到 2k GPU 之间会停止扩展:要么 leaf 的端口基数耗尽,要么 spine 层超额订阅过高。超过此规模后,所有现代 AI fabric 都是三级 Clos:leaf、spine、super-spine。这里所说的“scheduled(调度式)”指的是采用 基于信元的调度型 Fabric 调度 or 基于信用的调度 叠加在 Clos 之上,将利用率推向 1.0:这正是 UEC 和 GLB 的设计目标。

参考设计 2

三级 Clos 调度网络:4,096–16,384 个 GPU

三层架构:leaf、spine、super-spine。任意 GPU 到其他任意 GPU 都恰好相隔四跳交换机。当基数计算成立时实现无阻塞。每一跳均有 DLB,在 OcNOS 7.1 上实现全路径 GLB,并在支持 UEC 的 NIC 上实现 UEC packet-spray。

三级 Clos AI fabric 调度型拓扑 三级 Clos 拓扑。顶层为四台 super-spine 交换机。中层为八台 spine 交换机。底层为 12 台 leaf 交换机,向 GPU pod 馈送流量。leaf 到 spine、spine 到 super-spine 之间为全互联链路。底部条带标注:4096 GPU 调度网络、各层级 DLB、端到端 GLB(基于 OcNOS 7.1)。 Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12 个 pod · 每 pod 约 340 个 GPU · 共 4,096 个 GPU · TH5 · 800G 3-STAGE CLOS · 4,096 GPU · DLB EVERY HOP · GLB E2E(OcNOS 7.1)· UEC-READY

OcNOS 组件: eBGP unnumbered underlay、EVPN-VXLAN 多租户 overlay、RoCEv2 无损传输、每一层的 DLB、OcNOS 7.1 系列上的端到端 GLB,以及向你的可观测性栈传输的 gNMI 流式遥测。全程在 TH5 64×800G 机箱上完成验证。

面向分布式训练的多 DC 与 DCI

当单次训练任务跨越多个数据机房时(这在万亿参数模型中日益普遍),网络结构需要延伸至 WAN。OcNOS-DC 在 spine 上直接支持 400G ZR / ZR+ 相干光模块,实现免转发器的 DCI,并通过 EVPN 隧道扩展跨站点承载 VXLAN 租户。

参考设计 3

多数据中心 AI 网络:相干 DCI

两个 AI 数据中心通过 spine 上的 400G ZR/ZR+ 互联。EVPN inter-DC 承载 L2/L3 租户扩展;各站点底层的三级 Clos 保持不变。

采用 400G ZR/ZR+ DCI 的多 DC AI fabric 两个 AI 数据中心,各自采用 leaf-spine fabric。两个 spine 通过跨 WAN 的 400G ZR/ZR+ 相干光模块互联。EVPN 数据中心间隧道将租户从一个站点延伸至另一个站点。底部条带:无需转发器的相干 DCI。 DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 GPU pod · 站点 A GPU pod · 站点 B 相干 DCI · 免转发器 · EVPN 跨数据中心 · 400G ZR/ZR+

OcNOS 组件: 在 spine 自身上即可插入 400G ZR/ZR+ 相干光模块,通过 EVPN inter-DC 实现租户 L2/L3 扩展,并跨站点提供 gNMI 遥测,无需任何外部转发器。

设计经验法则

  • 使拓扑与 GPU 数量相匹配。 最小规模 pod(不超过单台 leaf 的 NIC 基数):仅用 rail-only 即可。单 pod 规模:采用 rail 优化的 leaf-spine。多 pod 规模:三级 Clos 是唯一能在不牺牲超额订阅的前提下实现扩展的设计。
  • AI 平面始终保持 1:1 无收敛比。 存储与 CPU 机架可承受更高的超额订阅。GPU 平面则不应如此。
  • 轨道数应依据 xCCL 规划,而非布线便利。 对于 8-NIC GPU 服务器,8 轨是当前的事实标准。请勿将多条轨合并到更少的 leaf 上。
  • 按功耗和密度选择芯片,而非按品牌标识。 TH4(25.6T)和 TH5(51.2T)是主力芯片;二者之间的取舍在于机架功耗和 breakout 线缆成本。
  • 在设计阶段就为 GLB / UEC 做好规划。 从第一天起就将遥测平面构建到位,即便是在 7.0 fabric 上,这样 OcNOS 7.1 GLB 升级便纯粹是一次软件操作。详见 GLB and Ultra Ethernet.
  • 对照 HCL 进行验证。 此处的每个参考方案均构建于所列硬件之上,详见 OcNOS 硬件兼容性列表;从那里开始即可获得一流支持。

正在设计您的 AI fabric?我们与您一起完成端口数量的测算。

预约架构评审 →