一个开放的 AI fabric — 面向训练作业的实际体验而构建。
在数千颗加速器规模下,衡量交换机的标准不是 Tbps——而是 job completion time、GPU 利用率,以及 microburst 下的尾延迟。OcNOS-DC 在带 24/7 carrier-grade SLA 的开放 merchant silicon 上达成相同数据:技术基准与封闭 AI 栈一致,但不带来任何锁定。
可离线阅读。 可在飞机上阅读。
两份简短的下载文档,深入程度超过本页:lossless AI fabric 架构与 EVPN-VXLAN data center 参考设计。
"我的训练任务 真的会更快完成吗?"
在大规模场景下,传统网络指标已失去参考意义。真正重要的是 Job Completion Time、GPU 利用率,以及 microburst 下的尾延迟 ——因为价值数十亿美元的集群每等待一个同步步骤一分钟,都是资本的直接燃烧。
AI 所需的 lossless、低时延性能已不再依赖封闭的专有栈。在带有 carrier-grade SLA 的开放 merchant silicon 之上,OcNOS-DC 在不引入任何 vendor lock-in 的前提下达到与封闭架构相同的技术基准——拥塞管理、亚毫秒级动态路由以及 Ultra Ethernet 对齐,针对集合通信流量的突发模式进行了调优。GPU 将时间用于数据处理,而非等待网络。
所有阈值均已开放,您的团队可针对真实 xCCL (NCCL / RCCL / oneCCL) 流量进行调优。以下:每种工作负载模式、对应的处理机制,以及运营商可获得的收益。
→ DLB 依据实时队列深度,在亚毫秒级重新绑定 flowlet。
→ GLB (OcNOS 7.1)对 leaf · spine · super-spine 路径进行评分。
→ DCQCN (针对 xCCL 调优的 ECN + CNP) 在丢包前封顶速率。
→ PFC Watchdog 按端口自动清空阻塞队列。
→ UEC 1.0:packet spray + 多路径 RDMA + 乱序投递。
→ 今天采购的交换机,在 UEC NIC 落地后仍可继续使用。
参考基准。 DLB 在同一硬件上将 fabric 利用率从静态 ECMP 下的约 55% 提升至 90% 以上——无需新增 uplink。在每一 hop 上本地生效;在整个 AllReduce 范围内系统级生效。(Broadcom 公开发布的 flowlet 再均衡数据,可在 TH4/TH5 上复现。)
DLB 深度解析 →800G spine-leaf, 实现机柜到机柜的无损传输。
3 级 Clos:eBGP unnumbered underlay、各层 ECMP、按优先级组的 PFC/ECN、用于 ZTP 与遥测的隔离 out-of-band 总线。将鼠标悬停于任一节点可查看交换机型号、端口数与 ASIC。
Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl
四层无损 — 自第 1 天起即正确无误。
大多数 AI fabric 故障可追溯到某一个配置错误的 PFC 优先级组,或是按 cloud 而非 RDMA 调优的 ECN 阈值。OcNOS-DC 内置按 Broadcom ASIC 逐一验证的 RoCEv2 缓冲区 profile——因此首次 AllReduce 即可以 lossless 方式运行,无需经历一轮调优冲刺。
PFC + ECN——按 priority group 的无损流控
PFC 在缓冲区溢出前按优先级暂停流量;ECN 提前标记报文以让发送端减速。无丢包、无端口级停顿。PFC over L3 适用于路由多行 fabric。
DLB — flowlet 级自适应路由
当 8 块 NIC 哈希到同一台 spine 时,静态哈希 ECMP 会发生冲突。DLB 实时观测队列深度,并在亚毫秒内将 flowlet 重绑定至负载较轻的路径——AllReduce 不再被最慢的链路拖累。
DCBX——服务器配置经由 LLDP 自动下发
Leaf 自动向 GPU 服务器下发正确的 PFC 与 ETS 配置——节点被重新部署时不会出现 lossless 特性的静默丢失,这是生产环境中最常见的故障模式。
gNMI on-change 遥测——亚秒级可观测性
PFC 暂停、ECN 标记、DCQCN 阈值与缓冲区深度均以 gNMI on-change sensor path 形式输出——直接进入 Prometheus / Grafana / OpenTelemetry。在拥塞导致作业停滞之前即可捕获。
40+ 已验证平台 — 完整 HCL →
fabric profile 已就绪 先于 NIC 完成。 这正是关键所在。
RoCEv2 是 2026 年的生产级传输方案;UEC 是下一步演进。UEC 1.0 fabric profile 增加了 packet spray、多路径 RDMA 与对乱序友好的转发——弥合了过去 RoCE 在多 rail 集合通信场景下落后于 InfiniBand 的单哈希限制。OcNOS-DC 跟随 UEC 1.0 fabric profile,而 UEC NICs 推进部署。重点并非引领标准——所有厂商都在向其靠拢。重点是本季度采购的交换机在 UEC NIC 到位时无需更换。
Packet spray
单条流可同时使用所有并行路径,而不再被绑定到单一 ECMP 哈希。多 rail 带宽不再闲置。
多路径 RDMA
重排缓冲区在硬件层面处理乱序投递。现代拥塞控制在尾时延方面取代了基于 NACK 的丢包恢复。
同一硬件,转发路径
当前已为 OcNOS-DC 验证的 TH4 与 TH5 平台可平滑延伸至 UEC。无需分叉、无需第二条 SKU 产品线。一套 fabric,两代传输。
OcNOS-DC 的定位 — 诚实地、按名称列出。
竞争已收敛到共同的基线:lossless RoCEv2、DCQCN、自适应路由、UEC 对齐。这些功能各家都已交付。真正的差异点在于 解决方案形态 ——垂直锁定与开放 NOS、封闭硬件与开放硬件、闭环 IB 与标准 Ethernet。选择您可以接受五年的取舍。
每一行都对应一款真实可交付的产品——包括 OcNOS-DC。问题极少在于功能缺失;而在于您将与哪种取舍长期共存。
它的实质 — 以及其止步之处。
AI 集群由三层构成。 fabric 在交换机之间传输字节; NIC 终结 RDMA; scheduler 决定什么在何处运行。所谓「AI-aware fabric」通常意味着单一厂商将三者打包在同一 SKU 之下。OcNOS-DC 负责 fabric,开放每一项阈值,且不越界进入上层。以下是清晰命名的边界。
OcNOS-DC 负责的范围。
- 无损 RoCEv2 传输——PFC + ECN + ETS + DCBX
- 采用 xCCL 验证默认阈值的 DCQCN,所有参数均以 YANG 建模
- DLB 基于 ASIC 实时队列深度,在亚毫秒级完成 flowlet 重绑定
- GLB 全 fabric 路径评分(OcNOS 7.1)
- PFC 死锁监控——按端口、按优先级
- 对齐 UEC 1.0 fabric profile——支持 packet spray 的转发方式
- gNMI on-change 遥测、OpenConfig YANG,亚秒级采样周期
NIC 厂商的职责。
- xCCL 集体通信的实现与调优
- RDMA verbs、queue pair、重传逻辑
- UEC packet spray 端点 + 重排序缓冲(UEC NIC)
- GPU-Direct 内存访问、NVLink 协同
- 按流的速率限制与端侧主机的拥塞响应
您的编排平台的职责。
- 训练作业调度部署、gang scheduling、梯度同步窗口
- Epoch / 训练阶段感知
- tenant 隔离、队列优先级、资源配额
- xCCL 环形拓扑分配,轨道组亲和性
- 跨任务干扰检测
本页中的每项机制均具备 各自独立的深度解析。
上方页面用于选择 fabric。以下内容用于对其进行调优——packet capture、ASIC 行为、YANG path,以及各项特性在 release train 中的交付节点。
RoCEv2 + PFC + ECN + DCQCN
面向 GPU 集体通信的无损 RDMA 传输层。按 Broadcom ASIC 预调优的缓冲配置、xCCL 级 DCQCN 默认值、负载下亚微秒级抖动。
阅读深度解析 → AI fabric · 本地自适应动态负载均衡(DLB)
基于 ASIC 队列深度实时遥测的亚毫秒级 flowlet 重绑定。可弥合 AllReduce elephant flow 在 ECMP 哈希冲突处的差距。
阅读深度解析 → AI fabric · 全 fabric 范围 OcNOS 7.1全局负载均衡(GLB)
在 leaf · spine · super-spine 之间进行端到端路径评分,可支撑最高 16k GPU 的集群规模。是 DLB 单独无法感知的多跳自适应层。
阅读深度解析 → AI fabric · frontier UEC 1.0Ultra Ethernet(UEC)
Packet spray、多路径 RDMA、乱序投递、现代拥塞控制。这是基于标准、面向 InfiniBand 的开放答案。
阅读深度解析 → AI fabric · 参考设计拓扑 — 从单 pod 到 16k GPU
rail-only 与 rail-optimized 设计将 fabric 形态直接映射到 xCCL 的 8 轨多 NIC 模式。三级 Clos 支持多 pod 横向扩展至 16k GPU 上限。端口数以 TH4 / TH5 平台为准。
阅读深度解析 → AI fabric · 拥塞控制DCQCN — RDMA 拥塞控制
WRED ECN 标记、CNP 反馈、量化速率控制。开箱即享 xCCL 级默认值,所有阈值均以 YANG 建模可调。
阅读深度解析 → AI fabric · 存续Watchdog — PFC 死锁检测
按端口、按优先级的 watchdog 检测暂停队列的循环,并在训练作业挂起之前自动清空受影响的队列。
阅读深度解析 → AI fabric · 决策指南InfiniBand 与 Ethernet 在 AI 场景的对比
按工作负载的决策指南。说明现代 Ethernet(RoCEv2 + DLB + UEC)在何处已弥合差距、IB 在何处仍占优,以及如何选型。
阅读深度解析 → 可观测性gNMI 流式遥测
通过 gRPC 提供的 gNMI Subscribe、OpenConfig YANG、dial-out collector。与 Telegraf、Prometheus 与 Grafana 集成。
阅读深度解析 →三种集群形态。 三段 fabric 故事。
以作业的实际感受为划分依据,而非以交换机功能为基础。选择与您最接近的形态;具体配置见深入解析。
为期数周的 LLM 预训练任务。
AllReduce 主导网络流量。每块 GPU 都必须维持高水平的集合通信内利用率,并在微突发下保持稳定,不致使九天的训练重启。
机制: DCQCN + DLB + PFC Watchdog。单 pod 采用 rail-optimized;多 pod 横向扩展采用带 GLB 的 3 级 Clos。
结果: AllReduce 达到线速运行,collective 零重启,JCT 控制在计划之内。
支撑公共 API 的高吞吐推理集群。
由 p99 尾时延决定 SLO 的实时推理场景。推理决不可排在批量再训练之后,运维一旦发现时延漂移即需具备按流可视化能力。
机制: ETS strict-priority + gNMI on-change 遥测,接入 Prometheus / OpenTelemetry。
结果: p99 稳定在 SLO 内;回归在毫秒级被发现,无需经由工单系统。
向 tenant 出租 H100 / H200 / Blackwell 的 neocloud。
多租户 GPU 云。每个 tenant 需要隔离的 lossless RoCEv2 路径——无需为每个客户划分独立的 fabric 分段,也无需第二份 NOS 镜像。
机制: 在单一 OcNOS-DC 实例上实现 EVPN-VXLAN 隔离与无损 RoCEv2。
结果: 按 tenant 隔离,统一运维模式、统一 SLA、单一镜像升级。
请提交您的拓扑。 我们将为您指明路径。
IPI 的每一次架构评审均由在生产中运行 OcNOS 的网络工程师主持——没有幻灯片,没有销售表演。提供 GPU 数量、NIC 选型与目标 JCT,即可在会上完成至拓扑、SKU 与当前可交付配置的映射。
将其连接至 其他一切。
AI 只是 data center 的一个分段。DC Fabric 与 DCI 将同一份 OcNOS 镜像延伸至计算、存储与远端站点——同一 NOS、同一 CLI、同一 SLA。
坦诚而言 FAQ.
AI fabric & DC deployments
Production AI clusters and data-center fabrics running OcNOS-DC on Broadcom Tomahawk 4/5.

NTT DATA partnered with IP Infusion to take disaggregated open networking solutions to market, offering OcNOS-powered Cell Site Routers, Routed…

Scott Data deployed OcNOS with open networking hardware from UfiSpace, Edgecore Networks, and Celestica, replacing legacy vendor stacks across its…

Madeo Consultant, a France-based data center systems integrator, replaced Cisco Nexus and Catalyst switches with IP Infusion OcNOS on Edgecore…

Prosoluce, a French ISP and managed services provider, upgraded its core to a 100G EVPN-VXLAN backbone running IP Infusion OcNOS…
Related from the blog
The AI Network Decision Framework: GPU Fabric for Speed, ROI, Strategic Freedom
Buyer-side framework for GPU fabric decisions with RoCEv2 and open hardware
Read the post →OcNOS 7.0 for Data Centers: AI Fabric, 800G Platforms, EVPN-VXLAN at Scale
800G AI fabric features and Tomahawk 5 platforms shipping in OcNOS 7.0
Read the post →OcNOS 7.0: What’s New for AI, Transport, and Cloud
Highlights RoCEv2 lossless transport with PFC for GPU clusters
Read the post →OcNOS 6.6 for Data Centers: AI Fabric PFC/ETS, EVPN Policy, 400G
PFC/ETS lossless DCB features that underpin OcNOS AI fabric deployments
Read the post →