RoCEv2:適用於 AI fabric 的無損乙太網

RDMA over Converged Ethernet v2 正是在現代 AI fabric 上承載 GPU 集合通信流量的技術。OcNOS 在經過驗證的 400G 和 800G 開放硬體上實現了完整的 RoCEv2 工具集(PFC、ECN/DCQCN、自適應負載均衡以及按優先級的遙測)。

AI Fabric 軌道拓撲

一段緊湊的 rail 切片:兩臺 spine 與兩臺 leaf 在四塊 GPU 之間承載 RoCEv2。擁塞時 PFC 暫停幀逐跳傳遞,同時 ECN 標記大象流,以便在源端觸發 DCQCN 反應。

採用 PFC 和無損 RDMA 的 RoCEv2 葉脊 AI fabric 一套兩 spine、兩 leaf 的 AI 網路,在四臺 GPU 伺服器之間承載無損 RoCEv2 RDMA 流量。PFC pause 箭頭展示基於優先級的流控如何保護承載 RDMA 流量的隊列。 PFC 暫停(CoS 3) Spine-1 ECN · WRED Spine-2 ECN · WRED Leaf-1 PFC · DCQCN Leaf-2 PFC · DCQCN GPU-0 GPU-1 GPU-2 GPU-3 PFC + ECN + DCQCN · ADAPTIVE LB · PER-PRIORITY TELEMETRY

為什麼 RoCEv2 對 AI/ML fabric 至關重要

GPU 集合通信(all-reduce、all-gather、all-to-all)會產生 大象流 這類流量會佔滿單條 fabric 路徑,並要求接近零丟包以保持訓練任務的高效運行。在一條 400G RoCEv2 鏈路上丟失一個報文,受影響的 NIC 就會重傳整個 RDMA 發送窗口,其代價可量化為數秒的 GPU 空閒時間。RoCEv2 憑藉三大支柱將 leaf-spine fabric 轉變為適用於這類工作負載的無損傳輸:PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)和 DCQCN(Data Center Quantized Congestion Notification)。

OcNOS RoCEv2 實現方案

PFC

按優先級暫停

在可配置優先級隊列上運行 802.1Qbb PFC,並配合看門狗定時器檢測死鎖狀態,在其傳播之前自動恢復。

ECN + DCQCN

自適應標記

按隊列進行基於 WRED 的 ECN 標記,並提供 DCQCN 反應點反饋。針對 xCCL (NCCL / RCCL / oneCCL) 集體通信工作負載調優的預設值;適用於自定義 RDMA 棧提供參數化覆蓋。

負載均衡

自適應 flowlet

動態負載均衡(DLB)在亞毫秒級間隔內於鏈路飽和時對 flowlet 重新分配。消除了損害對稱拓撲的靜態哈希衝突。

遙測

按優先級隊列統計

用於隊列深度、PFC 暫停計數、ECN 標記報文及微突發檢測的 gNMI 流式傳感器,以 1 秒粒度導出。

Topology

軌道最佳化(rail-optimized)網路

已針對 rail 對齊與調度型網路拓撲完成驗證。提供使用現成 400G 與 800G 開放交換機構建 256–4,096 GPU 叢集的方案配方。

Diagnostics

無損驗證

提供 CLI 診斷工具,端到端驗證已知良好的無損配置:PFC 餘量計算、ECN 閾值合理性檢查,以及合成的 incast 測試。

OcNOS 為您帶來什麼

  • 開放的硬體選擇。 在 UfiSpace、Edgecore、Wedge 或 Celestica 平台上以同一 NOS 鏡像運行 RoCEv2:fabric 層無廠商鎖定。
  • 第一天即具備同等功能。 自適應 LB、DCQCN 調優和 ASIC 原生遙測並非付費附加項。它們是 OcNOS-DC 基礎許可的一部分。
  • 參考設計。 針對主流 AI fabric 拓撲的已驗證配置:我們公開配置檔案及測試結果。
  • 工程訪問權限。 高級支持層級包含在 fabric 搭建期間與 OcNOS RoCEv2 團隊的直接溝通。

正在構建或擴展 AI fabric?請聯繫網路架構師。

申請技術演示 →