動態負載均衡：適用於 AI Fabric 的自適應路由

靜態哈希 ECMP 是為南北向 Web 流量而設計的，並非為 GPU 集合通信。OcNOS 動態負載均衡（DLB）以亞毫秒級間隔將 flowlet 重新分配到較不擁塞的路徑上，為分布式訓練工作負載彌合乙太網與 InfiniBand 之間的差距。

Leaf-Spine fabric 上的自適應路由

一個承載 GPU AllReduce 流量的 4-spine、2-leaf 切片。DLB 實時測量本地 egress 隊列深度。當 Spine-3 飽和時，leaf 會將下一個 flowlet 重新綁定到 Spine-2，使全部四條上行鏈路保持均衡。

為什麼靜態 ECMP 在 AI 網路中會失效

標準 ECMP 在流開始時對五元組進行哈希以選擇出埠，並在該流的整個生命周期內將其固定在該埠上。對於南北向 Web 流量而言，數百萬條短生命周期的流讓大數定律得以在各條路徑間平滑利用率。而在 AI fabric 上，你面對的卻是少量的 大象流 源自 GPU 集合通信（AllReduce、AllGather、All-to-All），其中每一項都會在數秒內持續佔滿一整條 400G 或 800G 上行鏈路。兩頭被哈希到同一條上行鏈路上的「大象流」將在整個操作期間發生衝突，而另一條上行鏈路卻處於空閒狀態。

The result is hash polarisation: measured fabric utilisation around 50-60% with random hot-spots, and tail-latency outliers that stall the entire training job. DLB closes this gap by re-evaluating the path decision on every flowlet, a sub-flow chunk delimited by a small inter-packet gap, using live egress queue-depth and port-utilisation telemetry from the ASIC. To size a leaf-spine fabric for your GPU cluster, use the AI Fabric 規模估算工具.

OcNOS DLB 實現

Flowlet 檢測

亞毫秒級間隔計時器

ASIC-native flowlet inactivity timer (typical 16-256 µs) splits long elephant flows into chunks safe to spray across paths without TCP/RoCEv2 reordering.

路徑品質

實時隊列深度反饋

DLB 從 Tomahawk 流水線獲取各出埠的隊列佔用率與鏈路利用率信號，實時為每條 ECMP 下一跳評分。

Re-bind

自適應下一跳選擇

在 flowlet 邊界處，選擇品質最高的成員。成員品質每隔幾微秒重新計算一次，因此飽和的 spine 會在一個 flowlet 內退出候選集。

Lossless

與 PFC 和 ECN 協同調優

DLB 與 RoCEv2 無損協議棧（PFC、ECN/DCQCN、緩衝餘量計算）整合，因此 flowlet 重新綁定會在暫停幀向上遊傳播之前完成。

遙測

gNMI 導出

逐成員重綁定計數、flowlet 間隔分布與成員品質評分通過 gNMI dial-out 流式上報，用於閉環織構調優。

硬體

TH4 / TH5 原生

已在 Broadcom Tomahawk 4（25.6T）和 Tomahawk 5（51.2T）骨幹平台上完成驗證，支持 64×400G 和 64×800G 埠配置，且不會帶來軟體快轉路徑性能損失。

DLB 在生產環境 AI fabric 中帶來的價值

更高的利用率。 業界公布的 flowlet 再平衡基準測試表明，在同一硬體上，fabric 利用率可從靜態 ECMP 的約 55% 提升至 90% 以上，且無需增購上行鏈路。
更低的尾延遲。 由於不會出現單條鏈路飽和而其他鏈路閒置的情況，P99.9 集合通信完成時間得以收緊。
更快的訓練。 減少 GPU 等待最慢 rank 的空閒時間，意味著在 AllReduce 密集型工作負載上實現可量化的實際運行時間提升。
無需更換 NIC。 DLB 在交換機 ASIC 中實現。現有 RoCEv2 NIC 與 xCCL (NCCL / RCCL / oneCCL) 集體通信棧無需改動代碼即可獲得正確的有序交付。
一張許可證。 DLB 是 OcNOS-DC PLUS SKU 的一部分：同一鏡像、同一支持合同，無需按功能額外付費。

正在為你的 GPU 網路架構調校 DLB？

申請技術演示 →

常見問題

什麼是 flowlet，DLB 為何要使用它？

flowlet 是由較小的封包間隔所劃分的子流片段。DLB 在每個 flowlet 邊界處重新評估路徑，而非固定整條流，因此可將流量轉移至壅塞較輕的 uplink，而不會引發 RoCEv2 或 TCP 的亂序。

DLB 與靜態 ECMP 有何不同？

靜態 ECMP 在流量開始時對 5 元組進行雜湊，並在整個生命週期內固定該流量，因此兩條 GPU 大象流可能在同一條上行鏈路上發生衝突，而另一條上行鏈路卻處於閒置狀態。DLB 利用即時佇列深度對每一個 next-hop 進行即時評分，並將 flowlet 重新綁定至最佳路徑上。

DLB是否需要新的NIC或對我的集合運算函式庫進行變更？

不需要。DLB 執行於交換器 ASIC 內，因此現有的 RoCEv2 NIC 以及 xCCL（NCCL、RCCL、oneCCL）集合運算堆疊無需變更程式碼即可取得正確的按序交付。

哪些硬體支援 OcNOS DLB？

DLB 在 Broadcom Tomahawk 4（25.6T）與 Tomahawk 5（51.2T）平台的 64x400G 與 64x800G 組態上受支援，並包含於 OcNOS-DC PLUS SKU 中，無需按功能付費的附加項。

規格書與解決方案簡介

深入了解，隨身帶走。

產品規格書，以及內容比本頁更為深入的簡明技術下載資料。

規格書

OcNOS-DC 規格書

完整的 OcNOS-DC 規格：EVPN-VXLAN 與 Ethernet for AI 功能集、軟體 SKU、支援的硬體平台，以及解決方案訂購指南。

取得規格書

解決方案簡報

OcNOS 800G 無損 AI Fabric

基於 Broadcom Tomahawk 4/5 spine 的無阻塞 RoCEv2 fabric：SKU 級別、經驗證的平台以及部署架構。

取得簡報

解決方案簡報

EVPN-VXLAN 資料中心網路

carrier-grade 的 leaf-spine data center fabric：對稱 IRB、Type-2/Type-5 路由，以及分散式 anycast 閘道。

取得簡報

AI 網路

Design the whole AI fabric with OcNOS

From the business case to the port-count maths, pick up wherever you are in the build.

解決方案 Open AI Fabric The complete 800G AI fabric: open switches, OcNOS-DC, and support under one contract. Reference designs AI Fabric 拓撲 Rail-optimized, scheduled 3-stage Clos, and coherent DCI, sized in real port counts. Size & build AI Fabric Design Suite Size a GPU fabric: leaf, spine, and super-spine counts with a component and power summary.

初次接觸AI組網？從這裡開始什麼是AI組網？什麼是GPU組網？什麼是無損乙太網？什麼是RDMA？

The technology inside RoCEv2 lossless Rail-optimized network DLB adaptive routing GLB (7.1) Ultra Ethernet DCQCN PFC 死鎖 InfiniBand 與乙太網對比 RoCE 與 InfiniBand 比較 AI fabric architecture Coherent DCI

解決方案

產品

合作夥伴

資源

公司

服務提供商網路

5G 行動傳輸

寬帶匯聚

都會乙太網路與匯聚

IP 核心與對等互連

IP over DWDM（路由光學）