AI Fabric Topologies: Rail-Optimized & Scheduled Designs
你的 fabric 形态决定了你的训练作业的形态。本页阐述 OcNOS-DC 针对其设计的三种参考拓扑:rail-only、rail-optimized 以及调度式三级 Clos,并以 Broadcom Tomahawk 4 和 Tomahawk 5 硬件上具体的端口数量进行规模化呈现。
按 GPU 数量选择,而非按流行术语
AI fabric 拓扑只有一个使命:保持 every 在一次集合通信期间使 GPU 的出站链路饱和,同时又不产生尾延迟离群值。理想的拓扑是能为您的 GPU 数量实现这一点的最小拓扑,并为下一更大规模预留回退路径。下方:OcNOS-DC 当前已验证的三种参考设计,附带具体的端口计算。
仅 Rail 单 pod
一行机柜、八台轨道对齐 ToR。无需 spine 层。两层合并架构。
Rail-optimized leaf-spine
采用轨道对齐的 leaf 加共享 spine 层。轨道间的东西向流量经由 spine;轨道内流量保持本地转发。
3 级 Clos 调度型
Leaf、spine、super-spine。端到端无阻塞 1:1 收敛比。每一层均启用 DLB;在 OcNOS 7.1 中实现端到端 GLB。
规模化调度型 fabric
带有超级骨干平面的多 Pod 三级 Clos。专为万亿参数训练级别设计。
轨道优化单 Pod
每台 GPU 服务器配备 8 个 NIC,每个对应一条 "rail",即专用 xCCL (NCCL / RCCL / oneCCL) 集体通信通道。每条 rail 拥有独立的专用叶交换机、因此每台服务器的 8 个 NIC 都落到不同的叶交换机上。跨 rail-N 的 AllReduce 保持在 leaf-N 内部。主导集体通信模式不会对 spine 产生东西向压力。
OcNOS 组件: EVPN-VXLAN underlay、BGP unnumbered、每台叶交换机均运行无损 RoCEv2、spine 层运行 DLB。已在 Edgecore AS9736-64D (TH4) 叶交换机与 AIS800-64D / UfiSpace S9321-64E (TH5) spine 上验证。
调度式对比 Rail-Aligned:规模化时的变化
Rail-optimized 架构在大约 1k 到 2k GPU 之间会停止扩展:要么 leaf 的端口基数耗尽,要么 spine 层超额订阅过高。超过此规模后,所有现代 AI fabric 都是三级 Clos:leaf、spine、super-spine。这里所说的“scheduled(调度式)”指的是采用 基于信元的调度型 Fabric 调度 or 基于信用的调度 叠加在 Clos 之上,将利用率推向 1.0:这正是 UEC 和 GLB 的设计目标。
三级 Clos 调度网络:4,096–16,384 个 GPU
三层架构:leaf、spine、super-spine。任意 GPU 到其他任意 GPU 都恰好相隔四跳交换机。当基数计算成立时实现无阻塞。每一跳均有 DLB,在 OcNOS 7.1 上实现全路径 GLB,并在支持 UEC 的 NIC 上实现 UEC packet-spray。
OcNOS 组件: eBGP unnumbered underlay、EVPN-VXLAN 多租户 overlay、RoCEv2 无损传输、每一层的 DLB、OcNOS 7.1 系列上的端到端 GLB,以及向你的可观测性栈传输的 gNMI 流式遥测。全程在 TH5 64×800G 机箱上完成验证。
面向分布式训练的多 DC 与 DCI
当单次训练任务跨越多个数据机房时(这在万亿参数模型中日益普遍),网络结构需要延伸至 WAN。OcNOS-DC 在 spine 上直接支持 400G ZR / ZR+ 相干光模块,实现免转发器的 DCI,并通过 EVPN 隧道扩展跨站点承载 VXLAN 租户。
多数据中心 AI 网络:相干 DCI
两个 AI 数据中心通过 spine 上的 400G ZR/ZR+ 互联。EVPN inter-DC 承载 L2/L3 租户扩展;各站点底层的三级 Clos 保持不变。
OcNOS 组件: 在 spine 自身上即可插入 400G ZR/ZR+ 相干光模块,通过 EVPN inter-DC 实现租户 L2/L3 扩展,并跨站点提供 gNMI 遥测,无需任何外部转发器。
设计经验法则
- 使拓扑与 GPU 数量相匹配。 最小规模 pod(不超过单台 leaf 的 NIC 基数):仅用 rail-only 即可。单 pod 规模:采用 rail 优化的 leaf-spine。多 pod 规模:三级 Clos 是唯一能在不牺牲超额订阅的前提下实现扩展的设计。
- AI 平面始终保持 1:1 无收敛比。 存储与 CPU 机架可承受更高的超额订阅。GPU 平面则不应如此。
- 轨道数应依据 xCCL 规划,而非布线便利。 对于 8-NIC GPU 服务器,8 轨是当前的事实标准。请勿将多条轨合并到更少的 leaf 上。
- 按功耗和密度选择芯片,而非按品牌标识。 TH4(25.6T)和 TH5(51.2T)是主力芯片;二者之间的取舍在于机架功耗和 breakout 线缆成本。
- 在设计阶段就为 GLB / UEC 做好规划。 从第一天起就将遥测平面构建到位,即便是在 7.0 fabric 上,这样 OcNOS 7.1 GLB 升级便纯粹是一次软件操作。详见 GLB and Ultra Ethernet.
- 对照 HCL 进行验证。 此处的每个参考方案均构建于所列硬件之上,详见 OcNOS 硬件兼容性列表;从那里开始即可获得一流支持。