RoCEv2：適用於 AI fabric 的無損乙太網

RDMA over Converged Ethernet v2 正是在現代 AI fabric 上承載 GPU 集合通訊流量的技術。OcNOS 在支援的 400G 和 800G 開放硬體上實現了完整的 RoCEv2 工具集（PFC、ECN/DCQCN、自適應負載平衡以及按優先權的遙測）。

AI Fabric 軌道拓撲

一段緊湊的 rail 切片：兩臺 spine 與兩臺 leaf 在四塊 GPU 之間承載 RoCEv2。擁塞時 PFC 暫停幀逐跳傳遞，同時 ECN 標記大象流，以便在源端觸發 DCQCN 反應。

RoCEv2 AI fabric 拓樸：兩台 spine、兩台 leaf 與四個 GPU，並在無損 RoCEv2 流量上標示 PFC pause 箭頭 — RoCEv2：兩 spine、兩 leaf 的 AI fabric，承載無損 GPU 流量並搭配 PFC pause 機制。

為什麼 RoCEv2 對 AI fabric 至關重要

GPU 集合通信（all-reduce、all-gather、all-to-all）會產生 大象流 這些流量會使單一 fabric 路徑飽和，並要求接近零丟包以維持訓練作業的效率。在 400G RoCEv2 鏈路上丟失一個封包，受影響的 NIC 便會重傳整個 RDMA 傳送視窗，其代價可按數秒的 GPU 閒置時間衡量。RoCEv2 將 leaf-spine fabric 轉變為適用於這些工作負載的 lossless transport，包含三大支柱：PFC（Priority Flow Control）、ECN（Explicit Congestion Notification）與 DCQCN（Data Center Quantized Congestion Notification）。若要為您的 GPU 叢集評估交換器層級與連接埠數量，請使用 AI Fabric 規模估算工具.

OcNOS RoCEv2 實現方案

PFC

按優先級暫停

在可配置優先級隊列上運行 802.1Qbb PFC，並配合看門狗定時器檢測死鎖狀態，在其傳播之前自動恢復。

ECN + DCQCN

自適應標記

按隊列進行基於 WRED 的 ECN 標記,並提供 DCQCN 反應點反饋。針對 xCCL (NCCL / RCCL / oneCCL) 集體通信工作負載調優的預設值;適用於自定義 RDMA 棧提供參數化覆蓋。

負載均衡

自適應 flowlet

動態負載均衡（DLB）在亞毫秒級間隔內於鏈路飽和時對 flowlet 重新分配。消除了損害對稱拓撲的靜態哈希衝突。

遙測

按優先級隊列統計

用於隊列深度、PFC 暫停計數、ECN 標記報文及微突發檢測的 gNMI 流式傳感器，以 1 秒粒度導出。

拓撲

軌道最佳化（rail-optimized）網路

Validated for rail-aligned and scheduled-fabric topologies. Recipes for 256-4,096 GPU clusters using off-the-shelf 400G and 800G open switches.

Diagnostics

無損驗證

提供 CLI 診斷工具，端到端驗證已知良好的無損配置：PFC 餘量計算、ECN 閾值合理性檢查，以及合成的 incast 測試。

OcNOS 為您帶來什麼

開放的硬體選擇。 在 UfiSpace、Edgecore、Wedge 或 Celestica 平台上以同一 NOS 鏡像運行 RoCEv2：fabric 層無廠商鎖定。
第一天即具備同等功能。 自適應 LB、DCQCN 調優和 ASIC 原生遙測並非付費附加項。它們是 OcNOS-DC 基礎許可的一部分。
參考設計。 針對主流 AI fabric 拓撲的已驗證配置：我們公開配置檔案及測試結果。
工程訪問權限。 高級支持層級包含在 fabric 搭建期間與 OcNOS RoCEv2 團隊的直接溝通。

正在建置或擴展 AI 網路架構？

申請技術演示 →

常見問題

什麼是 RoCEv2？

RoCEv2（RDMA over Converged Ethernet version 2）在可路由的 UDP/IP 網路上承載 RDMA 流量，使伺服器能以極低的延遲與較低的 CPU 開銷在記憶體之間直接搬移資料。它廣泛用於 Ethernet fabric 上的 AI 叢集與高速儲存。

RoCEv2與RoCEv1有何區別？

RoCEv2在UDP/IP之上執行RDMA，因此可跨Layer 3網路路由，而RoCEv1則直接執行於Ethernet（Layer 2）之上，僅限於單一廣播網域內。RoCEv2可擴充至RoCEv1無法觸及的更大規模、經路由的data center fabric。

RoCEv2 是否需要 lossless 網路？

RoCEv2 需要 lossless 或近乎 lossless 的 fabric，因為一旦遺失封包，RDMA 效能會急劇下降。業者藉由用於流量控制的 PFC 以及採用 DCQCN 的 ECN 進行壅塞控制來實現這一點，並使佇列保持較淺，從而讓 RDMA 流避免丟棄與重傳。

RoCEv2使用哪個UDP連接埠？

RoCEv2 使用目的 UDP 連接埠 4791，即 IANA 為 RoCEv2 流量保留的連接埠。由於 RDMA 封裝於 UDP/IP 之中，封包可路由，且可將 UDP 來源連接埠作為流量識別碼加以變化，藉此將流量分散至各條 ECMP 路徑上。

RoCEv2 與 InfiniBand 相比如何？

RoCEv2在標準Ethernet與IP之上提供RDMA，而InfiniBand則是一種獨立的專用fabric，擁有自己的交換器與介面卡。RoCEv2重複使用Ethernet的維運與設備，正因如此，許多AI與儲存網路採用它，而非專用的InfiniBand fabric。

規格書與解決方案簡介

深入了解，隨身帶走。

產品規格書，以及內容比本頁更為深入的簡明技術下載資料。

規格書

OcNOS-DC 規格書

完整的 OcNOS-DC 規格：EVPN-VXLAN 與 Ethernet for AI 功能集、軟體 SKU、支援的硬體平台，以及解決方案訂購指南。

取得規格書

解決方案簡報

OcNOS 800G 無損 AI Fabric

基於 Broadcom Tomahawk 4/5 spine 的無阻塞 RoCEv2 fabric：SKU 級別、經驗證的平台以及部署架構。

取得簡報

解決方案簡報

EVPN-VXLAN 資料中心網路

carrier-grade 的 leaf-spine data center fabric：對稱 IRB、Type-2/Type-5 路由，以及分散式 anycast 閘道。

取得簡報

AI 網路

Design the whole AI fabric with OcNOS

From the business case to the port-count maths, pick up wherever you are in the build.

解決方案 Open AI Fabric The complete 800G AI fabric: open switches, OcNOS-DC, and support under one contract. Reference designs AI Fabric 拓撲 Rail-optimized, scheduled 3-stage Clos, and coherent DCI, sized in real port counts. Size & build AI Fabric Design Suite Size a GPU fabric: leaf, spine, and super-spine counts with a component and power summary.

初次接觸AI組網？從這裡開始什麼是AI組網？什麼是GPU組網？什麼是無損乙太網？什麼是RDMA？

The technology inside RoCEv2 lossless Rail-optimized network DLB adaptive routing GLB (7.1) Ultra Ethernet DCQCN PFC 死鎖 InfiniBand 與乙太網對比 RoCE 與 InfiniBand 比較 AI fabric architecture Coherent DCI

解決方案

產品

合作夥伴

資源

公司

服務提供商網路

5G 行動傳輸

寬帶匯聚

都會乙太網路與匯聚

IP 核心與對等互連

IP over DWDM（路由光學）