Global Load Balancing:全网自适应路由
DLB 在单跳上做出正确决策;GLB 则在整个网络结构范围内做出正确决策。全局负载均衡随 OcNOS 7.1 推出,将自适应路由从单端口视角扩展至端到端路径质量,弥合了三级 Clos AI 网络结构上的多跳热点缺口,最高可支持 16k-GPU 上限。
端到端路径遥测
一段三级 Clos 切片(leaf、spine、super-spine),承载 GPU AllReduce。每一层都将队列占用率与链路利用率遥测数据回传至入口 leaf。GLB 选取质量最优的路径。 end-to-end 分数,而非最佳本地出口分数。
多跳热点问题
DLB 为每个 ECMP 下一跳评分,依据为 local egress 队列深度:即该交换机出端口上正在发生的状况。在两层 leaf-spine 中,这是最优的。但当扩展到三层 Clos 时,您可能选到了一条上行链路干净的 spine,却最终落到一台 super-spine 上,而它的 downlink 回到出口 leaf 的链路发生拥塞。本地视图正确,端到端视图错误。
在 1,024-GPU 及更大规模的 fabric 中(即采用带 super-spine 的 3 级 Clos 成为标准拓扑的规模),这是尾延迟异常值最主要的剩余来源。 OcNOS 7.1 引入 Global Load Balancing 以解决此问题:每一层都将路径质量遥测数据回传至入口叶节点,从而使入口决策基于完整的端到端评分。
DLB 与 GLB:路径决策的范围
逐跳自适应路由
每台交换机根据本地出口队列深度和链路利用率对自身的 ECMP 下一跳进行排序。非常适合两级网络,以及三级网络中的 leaf→spine 跳。现已在 TH4 / TH5 上可用。
端到端路径评分
每一层都将拥塞遥测数据回传至入口 leaf。入口端对完整路径(leaf→spine→super-spine→spine→leaf)进行排序,并基于全 fabric 质量评分进行选路,而非仅看本地一跳。
OcNOS 7.1 GLB 实现方案
路径质量发布
每一台 spine 和 super-spine 都会将各端口的队列占用率和利用率增量发布至 fabric 范围的邻接关系。更新延迟低于毫秒级,且使用现有的带内信令,不产生额外的控制平面通信开销。
端到端汇聚
Ingress leaf 将本地 egress 质量与下游遥测数据相结合,为每条候选路径计算出一个聚合评分。最差的跳数主导该评分,这与运营商进行故障排查时所用的直觉一致。
Flowlet-aligned
与 DLB 类似,GLB 在 flowlet 边界处重新绑定,从而为 RoCEv2 和 TCP 保持有序交付。区别在于决策依据:依据的是全 fabric 的质量,而非本地端口质量。
叠加于 DLB 之上
GLB 是对 DLB 决策的扩展,而非替代。同时包含支持 GLB 与仅支持 DLB 交换机的混合 fabric 仍可正常工作:非 GLB 交换机只是仅贡献本地质量。
最高可达 16k-GPU 上限
采用 256 端口 spine 层和 64 端口 super-spine 层的参考设计,以 64×800G TH5 机箱为构建单元,规格适配 16,384-GPU 的架构上限。
面向运维团队的 gNMI
逐路径评分、rebind 事件与 worst-hop 归因通过 gNMI/OpenConfig 流式输出、SRE 可在无黑盒情况下将 fabric 决策与 xCCL (NCCL / RCCL / oneCCL) 集体通信作业行为相关联。
路线图与可用性
- OcNOS 7.1,首个版本。 GLB 作为 7.1 OcNOS-DC 版本系列的组成部分发布,运行于当前运行 DLB 的同款 TH4 / TH5 硬件上。发布时间表与功能范围详见 OcNOS 版本发布页.
- 同一 SKU。 包含于 OcNOS-DC PLUS:无按功能付费门槛,升级时无需新的许可证密钥。
- 原地升级。 支持从 7.0 到 7.1 的存量升级;混合版本织构在升级窗口期间以仅 DLB 行为继续正常工作。
- UEC-aligned. 路径质量平面正在设计为:一旦 UEC NIC 生态成熟,即可与超以太网联盟(Ultra Ethernet Consortium)的信令互通,因此 7.1 GLB 对行业未来走向具备前向兼容性。参见 Ultra Ethernet(UEC).
- 可提供架构评审。 如果您正在为 1k+ GPU 组网做容量规划,我们将开展一次容量评估,其中包括 GLB 遥测平面。