Global Load Balancing:全網自適應路由
DLB 在單跳上做出正確決策;GLB 則在整個網路結構範圍內做出正確決策。全局負載均衡隨 OcNOS 7.1 推出,將自適應路由從單埠視角擴展至端到端路徑品質,彌合了三級 Clos AI 網路結構上的多跳熱點缺口,最高可支持 16k-GPU 上限。
端到端路徑遙測
一段三級 Clos 切片(leaf、spine、super-spine),承載 GPU AllReduce。每一層都將隊列佔用率與鏈路利用率遙測數據回傳至入口 leaf。GLB 選取品質最優的路徑。 end-to-end 分數,而非最佳本地出口分數。
多跳熱點問題
DLB 為每個 ECMP 下一跳評分,依據為 local egress 隊列深度:即該交換機出埠上正在發生的狀況。在兩層 leaf-spine 中,這是最優的。但當擴展到三層 Clos 時,您可能選到了一條上行鏈路乾淨的 spine,卻最終落到一臺 super-spine 上,而它的 downlink 回到出口 leaf 的鏈路發生擁塞。本地視圖正確,端到端視圖錯誤。
在 1,024-GPU 及更大規模的 fabric 中(即採用帶 super-spine 的 3 級 Clos 成為標準拓撲的規模),這是尾延遲異常值最主要的剩餘來源。 OcNOS 7.1 引入 Global Load Balancing 以解決此問題:每一層都將路徑品質遙測數據回傳至入口葉節點,從而使入口決策基於完整的端到端評分。
DLB 與 GLB:路徑決策的範圍
逐跳自適應路由
每臺交換機根據本地出口隊列深度和鏈路利用率對自身的 ECMP 下一跳進行排序。非常適合兩級網路,以及三級網路中的 leaf→spine 跳。現已在 TH4 / TH5 上可用。
端到端路徑評分
每一層都將擁塞遙測數據回傳至入口 leaf。入口端對完整路徑(leaf→spine→super-spine→spine→leaf)進行排序,並基於全 fabric 品質評分進行選路,而非僅看本地一跳。
OcNOS 7.1 GLB 實現方案
路徑品質發布
每一臺 spine 和 super-spine 都會將各埠的隊列佔用率和利用率增量發布至 fabric 範圍的鄰接關係。更新延遲低於毫秒級,且使用現有的帶內信令,不產生額外的控制平面通信開銷。
端到端匯聚
Ingress leaf 將本地 egress 品質與下遊遙測數據相結合,為每條候選路徑計算出一個聚合評分。最差的跳數主導該評分,這與電信業者進行故障排查時所用的直覺一致。
Flowlet-aligned
與 DLB 類似,GLB 在 flowlet 邊界處重新綁定,從而為 RoCEv2 和 TCP 保持有序交付。區別在於決策依據:依據的是全 fabric 的品質,而非本地埠品質。
疊加於 DLB 之上
GLB 是對 DLB 決策的擴展,而非替代。同時包含支持 GLB 與僅支持 DLB 交換機的混合 fabric 仍可正常工作:非 GLB 交換機只是僅貢獻本地品質。
最高可達 16k-GPU 上限
採用 256 埠 spine 層和 64 埠 super-spine 層的參考設計,以 64×800G TH5 機箱為構建單元,規格適配 16,384-GPU 的架構上限。
適用於運維團隊的 gNMI
逐路徑評分、rebind 事件與 worst-hop 歸因通過 gNMI/OpenConfig 流式輸出、SRE 可在無黑盒情況下將 fabric 決策與 xCCL (NCCL / RCCL / oneCCL) 集體通信作業行為相關聯。
路線圖與可用性
- OcNOS 7.1,首個版本。 GLB 作為 7.1 OcNOS-DC 版本系列的組成部分發布,運行於當前運行 DLB 的同款 TH4 / TH5 硬體上。發布時間表與功能範圍詳見 OcNOS 版本發布頁.
- 同一 SKU。 包含於 OcNOS-DC PLUS:無按功能付費門檻,升級時無需新的許可證金鑰。
- 原地升級。 支持從 7.0 到 7.1 的存量升級;混合版本織構在升級窗口期間以僅 DLB 行為繼續正常工作。
- UEC-aligned. 路徑品質平面正在設計為:一旦 UEC NIC 生態成熟,即可與超乙太網聯盟(Ultra Ethernet Consortium)的信令互通,因此 7.1 GLB 對行業未來走向具備前向兼容性。參見 Ultra Ethernet (UEC).
- 可提供架構評審。 如果您正在為 1k+ GPU 組網做容量規劃,我們將開展一次容量評估,其中包括 GLB 遙測平面。