動態負載均衡:適用於 AI Fabric 的自適應路由
靜態哈希 ECMP 是為南北向 Web 流量而設計的,並非為 GPU 集合通信。OcNOS 動態負載均衡(DLB)以亞毫秒級間隔將 flowlet 重新分配到較不擁塞的路徑上,為分布式訓練工作負載彌合乙太網與 InfiniBand 之間的差距。
Leaf-Spine fabric 上的自適應路由
一個承載 GPU AllReduce 流量的 4-spine、2-leaf 切片。DLB 實時測量本地 egress 隊列深度。當 Spine-3 飽和時,leaf 會將下一個 flowlet 重新綁定到 Spine-2,使全部四條上行鏈路保持均衡。
為什麼靜態 ECMP 在 AI 網路中會失效
標準 ECMP 在流開始時對五元組進行哈希以選擇出埠,並在該流的整個生命周期內將其固定在該埠上。對於南北向 Web 流量而言,數百萬條短生命周期的流讓大數定律得以在各條路徑間平滑利用率。而在 AI fabric 上,你面對的卻是少量的 大象流 源自 GPU 集合通信(AllReduce、AllGather、All-to-All),其中每一項都會在數秒內持續佔滿一整條 400G 或 800G 上行鏈路。兩頭被哈希到同一條上行鏈路上的「大象流」將在整個操作期間發生衝突,而另一條上行鏈路卻處於空閒狀態。
其結果是哈希極化:實測fabric利用率僅在50–60%左右且伴隨隨機熱點,以及會拖垮整個訓練任務的尾延遲異常值。DLB通過對每個flowlet(由微小的報文間間隙分隔的子流分片)重新評估路徑決策來彌合這一差距,其依據是來自ASIC的實時出口隊列深度和埠利用率遙測數據。
OcNOS DLB 實現
亞毫秒級間隔計時器
ASIC 原生的 flowlet 非活動定時器(典型值 16–256 µs)將長大象流切分為小塊,可安全地在多條路徑上噴灑(spray),而不會引起 TCP/RoCEv2 亂序。
實時隊列深度反饋
DLB 從 Tomahawk 流水線獲取各出埠的隊列佔用率與鏈路利用率信號,實時為每條 ECMP 下一跳評分。
自適應下一跳選擇
在 flowlet 邊界處,選擇品質最高的成員。成員品質每隔幾微秒重新計算一次,因此飽和的 spine 會在一個 flowlet 內退出候選集。
Co-tuned with PFC & ECN
DLB 與 RoCEv2 無損協議棧(PFC、ECN/DCQCN、緩衝餘量計算)整合,因此 flowlet 重新綁定會在暫停幀向上遊傳播之前完成。
gNMI 導出
逐成員重綁定計數、flowlet 間隔分布與成員品質評分通過 gNMI dial-out 流式上報,用於閉環織構調優。
TH4 / TH5 原生
已在 Broadcom Tomahawk 4(25.6T)和 Tomahawk 5(51.2T)骨幹平台上完成驗證,支持 64×400G 和 64×800G 埠配置,且不會帶來軟體快轉路徑性能損失。
DLB 在生產環境 AI fabric 中帶來的價值
- 更高的利用率。 業界公布的 flowlet 再平衡基準測試表明,在同一硬體上,fabric 利用率可從靜態 ECMP 的約 55% 提升至 90% 以上,且無需增購上行鏈路。
- 更低的尾延遲。 由於不會出現單條鏈路飽和而其他鏈路閒置的情況,P99.9 集合通信完成時間得以收緊。
- 更快的訓練。 減少 GPU 等待最慢 rank 的空閒時間,意味著在 AllReduce 密集型工作負載上實現可量化的實際運行時間提升。
- 無需更換 NIC。 DLB 在交換機 ASIC 中實現。現有 RoCEv2 NIC 與 xCCL (NCCL / RCCL / oneCCL) 集體通信棧無需改動代碼即可獲得正確的有序交付。
- 一張許可證。 DLB 是 OcNOS-DC PLUS SKU 的一部分:同一鏡像、同一支持合同,無需按功能額外付費。