RoCEv2:面向 AI fabric 的无损以太网
RDMA over Converged Ethernet v2 正是在现代 AI fabric 上承载 GPU 集合通信流量的技术。OcNOS 在经过验证的 400G 和 800G 开放硬件上实现了完整的 RoCEv2 工具集(PFC、ECN/DCQCN、自适应负载均衡以及按优先级的遥测)。
AI Fabric 轨道拓扑
一段紧凑的 rail 切片:两台 spine 与两台 leaf 在四块 GPU 之间承载 RoCEv2。拥塞时 PFC 暂停帧逐跳传递,同时 ECN 标记大象流,以便在源端触发 DCQCN 反应。
为什么 RoCEv2 对 AI/ML fabric 至关重要
GPU 集合通信(all-reduce、all-gather、all-to-all)会产生 大象流 这类流量会占满单条 fabric 路径,并要求接近零丢包以保持训练任务的高效运行。在一条 400G RoCEv2 链路上丢失一个报文,受影响的 NIC 就会重传整个 RDMA 发送窗口,其代价可量化为数秒的 GPU 空闲时间。RoCEv2 凭借三大支柱将 leaf-spine fabric 转变为面向这类工作负载的无损传输:PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)和 DCQCN(Data Center Quantized Congestion Notification)。
OcNOS RoCEv2 实现方案
按优先级暂停
在可配置优先级队列上运行 802.1Qbb PFC,并配合看门狗定时器检测死锁状态,在其传播之前自动恢复。
自适应标记
按队列进行基于 WRED 的 ECN 标记,并提供 DCQCN 反应点反馈。针对 xCCL (NCCL / RCCL / oneCCL) 集体通信工作负载调优的默认值;面向自定义 RDMA 栈提供参数化覆盖。
自适应 flowlet
动态负载均衡(DLB)在亚毫秒级间隔内于链路饱和时对 flowlet 重新分配。消除了损害对称拓扑的静态哈希冲突。
按优先级队列统计
用于队列深度、PFC 暂停计数、ECN 标记报文及微突发检测的 gNMI 流式传感器,以 1 秒粒度导出。
轨道优化(rail-optimized)网络
已针对 rail 对齐与调度型网络拓扑完成验证。提供使用现成 400G 与 800G 开放交换机构建 256–4,096 GPU 集群的方案配方。
无损验证
提供 CLI 诊断工具,端到端验证已知良好的无损配置:PFC 余量计算、ECN 阈值合理性检查,以及合成的 incast 测试。
OcNOS 为您带来什么
- 开放的硬件选择。 在 UfiSpace、Edgecore、Wedge 或 Celestica 平台上以同一 NOS 镜像运行 RoCEv2:fabric 层无厂商锁定。
- 第一天即具备同等功能。 自适应 LB、DCQCN 调优和 ASIC 原生遥测并非付费附加项。它们是 OcNOS-DC 基础许可的一部分。
- 参考设计。 针对主流 AI fabric 拓扑的已验证配置:我们公开配置文件及测试结果。
- 工程访问权限。 高级支持层级包含在 fabric 搭建期间与 OcNOS RoCEv2 团队的直接沟通。