RoCEv2:適用於 AI fabric 的無損乙太網
RDMA over Converged Ethernet v2 正是在現代 AI fabric 上承載 GPU 集合通信流量的技術。OcNOS 在經過驗證的 400G 和 800G 開放硬體上實現了完整的 RoCEv2 工具集(PFC、ECN/DCQCN、自適應負載均衡以及按優先級的遙測)。
AI Fabric 軌道拓撲
一段緊湊的 rail 切片:兩臺 spine 與兩臺 leaf 在四塊 GPU 之間承載 RoCEv2。擁塞時 PFC 暫停幀逐跳傳遞,同時 ECN 標記大象流,以便在源端觸發 DCQCN 反應。
為什麼 RoCEv2 對 AI/ML fabric 至關重要
GPU 集合通信(all-reduce、all-gather、all-to-all)會產生 大象流 這類流量會佔滿單條 fabric 路徑,並要求接近零丟包以保持訓練任務的高效運行。在一條 400G RoCEv2 鏈路上丟失一個報文,受影響的 NIC 就會重傳整個 RDMA 發送窗口,其代價可量化為數秒的 GPU 空閒時間。RoCEv2 憑藉三大支柱將 leaf-spine fabric 轉變為適用於這類工作負載的無損傳輸:PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)和 DCQCN(Data Center Quantized Congestion Notification)。
OcNOS RoCEv2 實現方案
按優先級暫停
在可配置優先級隊列上運行 802.1Qbb PFC,並配合看門狗定時器檢測死鎖狀態,在其傳播之前自動恢復。
自適應標記
按隊列進行基於 WRED 的 ECN 標記,並提供 DCQCN 反應點反饋。針對 xCCL (NCCL / RCCL / oneCCL) 集體通信工作負載調優的預設值;適用於自定義 RDMA 棧提供參數化覆蓋。
自適應 flowlet
動態負載均衡(DLB)在亞毫秒級間隔內於鏈路飽和時對 flowlet 重新分配。消除了損害對稱拓撲的靜態哈希衝突。
按優先級隊列統計
用於隊列深度、PFC 暫停計數、ECN 標記報文及微突發檢測的 gNMI 流式傳感器,以 1 秒粒度導出。
軌道最佳化(rail-optimized)網路
已針對 rail 對齊與調度型網路拓撲完成驗證。提供使用現成 400G 與 800G 開放交換機構建 256–4,096 GPU 叢集的方案配方。
無損驗證
提供 CLI 診斷工具,端到端驗證已知良好的無損配置:PFC 餘量計算、ECN 閾值合理性檢查,以及合成的 incast 測試。
OcNOS 為您帶來什麼
- 開放的硬體選擇。 在 UfiSpace、Edgecore、Wedge 或 Celestica 平台上以同一 NOS 鏡像運行 RoCEv2:fabric 層無廠商鎖定。
- 第一天即具備同等功能。 自適應 LB、DCQCN 調優和 ASIC 原生遙測並非付費附加項。它們是 OcNOS-DC 基礎許可的一部分。
- 參考設計。 針對主流 AI fabric 拓撲的已驗證配置:我們公開配置檔案及測試結果。
- 工程訪問權限。 高級支持層級包含在 fabric 搭建期間與 OcNOS RoCEv2 團隊的直接溝通。