RoCEv2:面向 AI fabric 的无损以太网

RDMA over Converged Ethernet v2 正是在现代 AI fabric 上承载 GPU 集合通信流量的技术。OcNOS 在经过验证的 400G 和 800G 开放硬件上实现了完整的 RoCEv2 工具集(PFC、ECN/DCQCN、自适应负载均衡以及按优先级的遥测)。

AI Fabric 轨道拓扑

一段紧凑的 rail 切片:两台 spine 与两台 leaf 在四块 GPU 之间承载 RoCEv2。拥塞时 PFC 暂停帧逐跳传递,同时 ECN 标记大象流,以便在源端触发 DCQCN 反应。

采用 PFC 和无损 RDMA 的 RoCEv2 叶脊 AI fabric 一套两 spine、两 leaf 的 AI 网络,在四台 GPU 服务器之间承载无损 RoCEv2 RDMA 流量。PFC pause 箭头展示基于优先级的流控如何保护承载 RDMA 流量的队列。 PFC 暂停(CoS 3) Spine-1 ECN · WRED Spine-2 ECN · WRED Leaf-1 PFC · DCQCN Leaf-2 PFC · DCQCN GPU-0 GPU-1 GPU-2 GPU-3 PFC + ECN + DCQCN · ADAPTIVE LB · PER-PRIORITY TELEMETRY

为什么 RoCEv2 对 AI/ML fabric 至关重要

GPU 集合通信(all-reduce、all-gather、all-to-all)会产生 大象流 这类流量会占满单条 fabric 路径,并要求接近零丢包以保持训练任务的高效运行。在一条 400G RoCEv2 链路上丢失一个报文,受影响的 NIC 就会重传整个 RDMA 发送窗口,其代价可量化为数秒的 GPU 空闲时间。RoCEv2 凭借三大支柱将 leaf-spine fabric 转变为面向这类工作负载的无损传输:PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)和 DCQCN(Data Center Quantized Congestion Notification)。

OcNOS RoCEv2 实现方案

PFC

按优先级暂停

在可配置优先级队列上运行 802.1Qbb PFC,并配合看门狗定时器检测死锁状态,在其传播之前自动恢复。

ECN + DCQCN

自适应标记

按队列进行基于 WRED 的 ECN 标记,并提供 DCQCN 反应点反馈。针对 xCCL (NCCL / RCCL / oneCCL) 集体通信工作负载调优的默认值;面向自定义 RDMA 栈提供参数化覆盖。

负载均衡

自适应 flowlet

动态负载均衡(DLB)在亚毫秒级间隔内于链路饱和时对 flowlet 重新分配。消除了损害对称拓扑的静态哈希冲突。

遥测

按优先级队列统计

用于队列深度、PFC 暂停计数、ECN 标记报文及微突发检测的 gNMI 流式传感器,以 1 秒粒度导出。

Topology

轨道优化(rail-optimized)网络

已针对 rail 对齐与调度型网络拓扑完成验证。提供使用现成 400G 与 800G 开放交换机构建 256–4,096 GPU 集群的方案配方。

Diagnostics

无损验证

提供 CLI 诊断工具,端到端验证已知良好的无损配置:PFC 余量计算、ECN 阈值合理性检查,以及合成的 incast 测试。

OcNOS 为您带来什么

  • 开放的硬件选择。 在 UfiSpace、Edgecore、Wedge 或 Celestica 平台上以同一 NOS 镜像运行 RoCEv2:fabric 层无厂商锁定。
  • 第一天即具备同等功能。 自适应 LB、DCQCN 调优和 ASIC 原生遥测并非付费附加项。它们是 OcNOS-DC 基础许可的一部分。
  • 参考设计。 针对主流 AI fabric 拓扑的已验证配置:我们公开配置文件及测试结果。
  • 工程访问权限。 高级支持层级包含在 fabric 搭建期间与 OcNOS RoCEv2 团队的直接沟通。

正在构建或扩展 AI fabric?请联系网络架构师。

申请技术演示 →