動態負載均衡:適用於 AI Fabric 的自適應路由

靜態哈希 ECMP 是為南北向 Web 流量而設計的,並非為 GPU 集合通信。OcNOS 動態負載均衡(DLB)以亞毫秒級間隔將 flowlet 重新分配到較不擁塞的路徑上,為分布式訓練工作負載彌合乙太網與 InfiniBand 之間的差距。

Leaf-Spine fabric 上的自適應路由

一個承載 GPU AllReduce 流量的 4-spine、2-leaf 切片。DLB 實時測量本地 egress 隊列深度。當 Spine-3 飽和時,leaf 會將下一個 flowlet 重新綁定到 Spine-2,使全部四條上行鏈路保持均衡。

跨 AI 葉脊 fabric 的動態負載均衡 一套四 spine、兩 leaf 的 AI 網路。接入 leaf 的 GPU 伺服器發送 AllReduce 流量。三條 spine 路徑承載均衡的 flowlet。第四條 spine 發生擁塞(紅色),Dynamic Load Balancing 將下一個 flowlet 重新分配到負載較輕的 spine 上。底部條帶標註 DLB 指標:隊列深度、埠利用率、flowlet 重新綁定。 Spine-3 擁塞 → 下一個 flowlet 重新綁定至 Spine-2 Spine-1 隊列 18% Spine-2 隊列 22% Spine-3 隊列 92% Spine-4 隊列 25% Leaf-1 DLB · flowlet Leaf-2 DLB · flowlet GPU-0 GPU-1 GPU-2 GPU-3 DLB · QUEUE-DEPTH FEEDBACK · FLOWLET REBIND · CONGESTION-AWARE ECMP

為什麼靜態 ECMP 在 AI 網路中會失效

標準 ECMP 在流開始時對五元組進行哈希以選擇出埠,並在該流的整個生命周期內將其固定在該埠上。對於南北向 Web 流量而言,數百萬條短生命周期的流讓大數定律得以在各條路徑間平滑利用率。而在 AI fabric 上,你面對的卻是少量的 大象流 源自 GPU 集合通信(AllReduce、AllGather、All-to-All),其中每一項都會在數秒內持續佔滿一整條 400G 或 800G 上行鏈路。兩頭被哈希到同一條上行鏈路上的「大象流」將在整個操作期間發生衝突,而另一條上行鏈路卻處於空閒狀態。

其結果是哈希極化:實測fabric利用率僅在50–60%左右且伴隨隨機熱點,以及會拖垮整個訓練任務的尾延遲異常值。DLB通過對每個flowlet(由微小的報文間間隙分隔的子流分片)重新評估路徑決策來彌合這一差距,其依據是來自ASIC的實時出口隊列深度和埠利用率遙測數據。

OcNOS DLB 實現

Flowlet 檢測

亞毫秒級間隔計時器

ASIC 原生的 flowlet 非活動定時器(典型值 16–256 µs)將長大象流切分為小塊,可安全地在多條路徑上噴灑(spray),而不會引起 TCP/RoCEv2 亂序。

路徑品質

實時隊列深度反饋

DLB 從 Tomahawk 流水線獲取各出埠的隊列佔用率與鏈路利用率信號,實時為每條 ECMP 下一跳評分。

Re-bind

自適應下一跳選擇

在 flowlet 邊界處,選擇品質最高的成員。成員品質每隔幾微秒重新計算一次,因此飽和的 spine 會在一個 flowlet 內退出候選集。

Lossless

Co-tuned with PFC & ECN

DLB 與 RoCEv2 無損協議棧(PFC、ECN/DCQCN、緩衝餘量計算)整合,因此 flowlet 重新綁定會在暫停幀向上遊傳播之前完成。

遙測

gNMI 導出

逐成員重綁定計數、flowlet 間隔分布與成員品質評分通過 gNMI dial-out 流式上報,用於閉環織構調優。

硬體

TH4 / TH5 原生

已在 Broadcom Tomahawk 4(25.6T)和 Tomahawk 5(51.2T)骨幹平台上完成驗證,支持 64×400G 和 64×800G 埠配置,且不會帶來軟體快轉路徑性能損失。

DLB 在生產環境 AI fabric 中帶來的價值

  • 更高的利用率。 業界公布的 flowlet 再平衡基準測試表明,在同一硬體上,fabric 利用率可從靜態 ECMP 的約 55% 提升至 90% 以上,且無需增購上行鏈路。
  • 更低的尾延遲。 由於不會出現單條鏈路飽和而其他鏈路閒置的情況,P99.9 集合通信完成時間得以收緊。
  • 更快的訓練。 減少 GPU 等待最慢 rank 的空閒時間,意味著在 AllReduce 密集型工作負載上實現可量化的實際運行時間提升。
  • 無需更換 NIC。 DLB 在交換機 ASIC 中實現。現有 RoCEv2 NIC 與 xCCL (NCCL / RCCL / oneCCL) 集體通信棧無需改動代碼即可獲得正確的有序交付。
  • 一張許可證。 DLB 是 OcNOS-DC PLUS SKU 的一部分:同一鏡像、同一支持合同,無需按功能額外付費。

正在為您的 GPU 網路調優 DLB?請諮詢網路架構師。

申請技術演示 →