將在 OcNOS 7.1 中推出

Global Load Balancing:全網自適應路由

DLB 在單跳上做出正確決策;GLB 則在整個網路結構範圍內做出正確決策。全局負載均衡隨 OcNOS 7.1 推出,將自適應路由從單埠視角擴展至端到端路徑品質,彌合了三級 Clos AI 網路結構上的多跳熱點缺口,最高可支持 16k-GPU 上限。

端到端路徑遙測

一段三級 Clos 切片(leaf、spine、super-spine),承載 GPU AllReduce。每一層都將隊列佔用率與鏈路利用率遙測數據回傳至入口 leaf。GLB 選取品質最優的路徑。 end-to-end 分數,而非最佳本地出口分數。

跨三級 Clos AI fabric 的全局負載均衡 三級 Clos AI 網路結構。頂層為兩臺 super-spine,中間為四臺 spine,底層為兩臺 leaf。遙測箭頭向上流動再向下回流,使入口 leaf 能夠感知端到端路徑品質。其中一條 spine 到 super-spine 的鏈路發生擁塞並被繞過,轉而選用另一條端到端路徑。 端到端遙測 Super-Spine-1TH5 · 51.2T Super-Spine-2TH5 · 51.2T Spine-1e2e ✓ Spine-2e2e ✓ Spine-3上行鏈路過熱 Spine-4e2e ✓ 入口 LeafGLB · 為路徑排序 出口 Leaf目標機架 GLB · END-TO-END PATH SCORING · MULTI-HOP CONGESTION AWARENESS · OcNOS 7.1

多跳熱點問題

DLB 為每個 ECMP 下一跳評分,依據為 local egress 隊列深度:即該交換機出埠上正在發生的狀況。在兩層 leaf-spine 中,這是最優的。但當擴展到三層 Clos 時,您可能選到了一條上行鏈路乾淨的 spine,卻最終落到一臺 super-spine 上,而它的 downlink 回到出口 leaf 的鏈路發生擁塞。本地視圖正確,端到端視圖錯誤。

在 1,024-GPU 及更大規模的 fabric 中(即採用帶 super-spine 的 3 級 Clos 成為標準拓撲的規模),這是尾延遲異常值最主要的剩餘來源。 OcNOS 7.1 引入 Global Load Balancing 以解決此問題:每一層都將路徑品質遙測數據回傳至入口葉節點,從而使入口決策基於完整的端到端評分。

DLB 與 GLB:路徑決策的範圍

本地:DLB

逐跳自適應路由

每臺交換機根據本地出口隊列深度和鏈路利用率對自身的 ECMP 下一跳進行排序。非常適合兩級網路,以及三級網路中的 leaf→spine 跳。現已在 TH4 / TH5 上可用。

全局:GLB · 7.1

端到端路徑評分

每一層都將擁塞遙測數據回傳至入口 leaf。入口端對完整路徑(leaf→spine→super-spine→spine→leaf)進行排序,並基於全 fabric 品質評分進行選路,而非僅看本地一跳。

OcNOS 7.1 GLB 實現方案

遙測平面

路徑品質發布

每一臺 spine 和 super-spine 都會將各埠的隊列佔用率和利用率增量發布至 fabric 範圍的鄰接關係。更新延遲低於毫秒級,且使用現有的帶內信令,不產生額外的控制平面通信開銷。

路徑評分

端到端匯聚

Ingress leaf 將本地 egress 品質與下遊遙測數據相結合,為每條候選路徑計算出一個聚合評分。最差的跳數主導該評分,這與電信業者進行故障排查時所用的直覺一致。

Selection

Flowlet-aligned

與 DLB 類似,GLB 在 flowlet 邊界處重新綁定,從而為 RoCEv2 和 TCP 保持有序交付。區別在於決策依據:依據的是全 fabric 的品質,而非本地埠品質。

Backwards-Compatible

疊加於 DLB 之上

GLB 是對 DLB 決策的擴展,而非替代。同時包含支持 GLB 與僅支持 DLB 交換機的混合 fabric 仍可正常工作:非 GLB 交換機只是僅貢獻本地品質。

Scale

最高可達 16k-GPU 上限

採用 256 埠 spine 層和 64 埠 super-spine 層的參考設計,以 64×800G TH5 機箱為構建單元,規格適配 16,384-GPU 的架構上限。

遙測輸出

適用於運維團隊的 gNMI

逐路徑評分、rebind 事件與 worst-hop 歸因通過 gNMI/OpenConfig 流式輸出、SRE 可在無黑盒情況下將 fabric 決策與 xCCL (NCCL / RCCL / oneCCL) 集體通信作業行為相關聯。

路線圖與可用性

  • OcNOS 7.1,首個版本。 GLB 作為 7.1 OcNOS-DC 版本系列的組成部分發布,運行於當前運行 DLB 的同款 TH4 / TH5 硬體上。發布時間表與功能範圍詳見 OcNOS 版本發布頁.
  • 同一 SKU。 包含於 OcNOS-DC PLUS:無按功能付費門檻,升級時無需新的許可證金鑰。
  • 原地升級。 支持從 7.0 到 7.1 的存量升級;混合版本織構在升級窗口期間以僅 DLB 行為繼續正常工作。
  • UEC-aligned. 路徑品質平面正在設計為:一旦 UEC NIC 生態成熟,即可與超乙太網聯盟(Ultra Ethernet Consortium)的信令互通,因此 7.1 GLB 對行業未來走向具備前向兼容性。參見 Ultra Ethernet (UEC).
  • 可提供架構評審。 如果您正在為 1k+ GPU 組網做容量規劃,我們將開展一次容量評估,其中包括 GLB 遙測平面。

正在規劃數千個 GPU 規模的 fabric?讓我們一起把數字算清楚。

預約架構評審 →