对齐 UEC 1.0 · DCQCN · DLB · GLB(OcNOS 7.1)· 最高支持 16k GPU

一个开放的 AI fabric — 面向训练作业的实际体验而构建。

在数千颗加速器规模下,衡量交换机的标准不是 Tbps——而是 job completion time、GPU 利用率,以及 microburst 下的尾延迟。OcNOS-DC 在带 24/7 carrier-grade SLA 的开放 merchant silicon 上达成相同数据:技术基准与封闭 AI 栈一致,但不带来任何锁定。

最多 16k GPU参考设计上限
亚毫秒 DLBFlowlet 重绑定
UEC 1.0与 fabric profile 一致
24/7 SLAcarrier-grade 全球
16k GPU
参考设计上限
DCQCN
针对 xCCL 调优,所有阈值均以 YANG 建模。
DLB + GLB
本地 flowlet 与全 fabric 范围的自适应路由
UEC 1.0
对齐 fabric profile · 面向 IB 的开放答案
构建者的提问

"我的训练任务 真的会更快完成吗?"

在大规模场景下,传统网络指标已失去参考意义。真正重要的是 Job Completion Time、GPU 利用率,以及 microburst 下的尾延迟 ——因为价值数十亿美元的集群每等待一个同步步骤一分钟,都是资本的直接燃烧。

AI 所需的 lossless、低时延性能已不再依赖封闭的专有栈。在带有 carrier-grade SLA 的开放 merchant silicon 之上,OcNOS-DC 在不引入任何 vendor lock-in 的前提下达到与封闭架构相同的技术基准——拥塞管理、亚毫秒级动态路由以及 Ultra Ethernet 对齐,针对集合通信流量的突发模式进行了调优。GPU 将时间用于数据处理,而非等待网络。

所有阈值均已开放,您的团队可针对真实 xCCL (NCCL / RCCL / oneCCL) 流量进行调优。以下:每种工作负载模式、对应的处理机制,以及运营商可获得的收益。

AllReduce / AllGather
每个 GPU 都会与 其他所有 GPU 同时进行。
静态 ECMP 将 elephant flow 绑定到单条 spine 链路——产生热点、闲置 uplink 与同步缓慢。
DLB 依据实时队列深度,在亚毫秒级重新绑定 flowlet。
GLB (OcNOS 7.1)对 leaf · spine · super-spine 路径进行评分。
结果: 无 hash 冲突造成的热点;AllReduce 保持接近线速。
Microburst / incast
N 个发送端汇聚至同一队列于 微秒。
丢包会重启集合通信;pause 风暴则会阻塞链路。无论哪种情况,运行都将停滞。
DCQCN (针对 xCCL 调优的 ECN + CNP) 在丢包前封顶速率。
PFC Watchdog 按端口自动清空阻塞队列。
结果: 作业能够抵御突发流量;死锁自动恢复——无需凌晨三点重启设备。
Multi-rail / scale-out
单条流需要 每一条并行路径 同时进行。
Hash 固定的单路径 ECMP 使 multi-rail 带宽闲置。
UEC 1.0:packet spray + 多路径 RDMA + 乱序投递。
→ 今天采购的交换机,在 UEC NIC 落地后仍可继续使用。
结果: 随着 UEC NIC 的部署推进,尾时延异常值将进一步收窄——这是面向 InfiniBand 的开放答案。
~55% → 90%+

参考基准。 DLB 在同一硬件上将 fabric 利用率从静态 ECMP 下的约 55% 提升至 90% 以上——无需新增 uplink。在每一 hop 上本地生效;在整个 AllReduce 范围内系统级生效。(Broadcom 公开发布的 flowlet 再均衡数据,可在 TH4/TH5 上复现。)

DLB 深度解析 →
在一排机柜中的实际形态

800G spine-leaf, 实现机柜到机柜的无损传输。

3 级 Clos:eBGP unnumbered underlay、各层 ECMP、按优先级组的 PFC/ECN、用于 ZTP 与遥测的隔离 out-of-band 总线。将鼠标悬停于任一节点可查看交换机型号、端口数与 ASIC。

800G AI fabric 拓扑,采用 full-mesh eBGP 与独立的 OOB 管理网络 横向 800G AI fabric。左侧三个 GPU 机柜接入两台运行 OcNOS-DC 的 leaf VTEP,后者通过带 DLB 的全网状 eBGP ECMP underlay 连接至两台 51.2 Tbps spine。顶部隔离的 out-of-band 管理总线承载 ZTP 与遥测。右侧为挂接在 leaf 上的 NVMe-oF/NFS GPU 存储。 隔离的带外管理总线 OOB 管理 隔离网络 ZTP · 遥测 GPU 机柜 1 8× GPU 节点 RoCEv2 / RDMA GPU 机柜 2 8× GPU 节点 RoCEv2 / RDMA GPU 机柜 3 8× GPU 节点 RoCEv2 / RDMA Leaf-01 OcNOS-DC 64 × 400G Tomahawk 4 PFC / DCBX / ZTP 无损 RoCEv2 MLAG PEER Leaf-02 OcNOS-DC 64 × 400G Tomahawk 4 PFC / DCBX / ZTP 无损 RoCEv2 eBGP ECMP 全互联 Spine-01 OcNOS-DC 51.2 Tbps · DLB eBGP · ECMP · DLB Spine-02 OcNOS-DC 51.2 Tbps · DLB eBGP · ECMP · DLB GPU 存储 NVMe-oF / NFS 面向 RDMA 优化 OcNOS-DC — AI 架构 — 水平 CLOS · PFC · ECN · DLB · 800G
OcNOS-DC leaf/spine
OcNOS-DC spine(DLB)
GPU 服务器 / 存储

Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl

600+生产环境中的 OcNOS 网络
26 年ZebOS 路由协议栈正在生产运行
24×7carrier-grade 全球 SLA
fabric 内部

四层无损 — 自第 1 天起即正确无误。

大多数 AI fabric 故障可追溯到某一个配置错误的 PFC 优先级组,或是按 cloud 而非 RDMA 调优的 ECN 阈值。OcNOS-DC 内置按 Broadcom ASIC 逐一验证的 RoCEv2 缓冲区 profile——因此首次 AllReduce 即可以 lossless 方式运行,无需经历一轮调优冲刺。

PFC + ECN——按 priority group 的无损流控

PFC 在缓冲区溢出前按优先级暂停流量;ECN 提前标记报文以让发送端减速。无丢包、无端口级停顿。PFC over L3 适用于路由多行 fabric。

DLB — flowlet 级自适应路由

当 8 块 NIC 哈希到同一台 spine 时,静态哈希 ECMP 会发生冲突。DLB 实时观测队列深度,并在亚毫秒内将 flowlet 重绑定至负载较轻的路径——AllReduce 不再被最慢的链路拖累。

DCBX——服务器配置经由 LLDP 自动下发

Leaf 自动向 GPU 服务器下发正确的 PFC 与 ETS 配置——节点被重新部署时不会出现 lossless 特性的静默丢失,这是生产环境中最常见的故障模式。

gNMI on-change 遥测——亚秒级可观测性

PFC 暂停、ECN 标记、DCQCN 阈值与缓冲区深度均以 gNMI on-change sensor path 形式输出——直接进入 Prometheus / Grafana / OpenTelemetry。在拥塞导致作业停滞之前即可捕获。

ai-leaf01 — gNMI 无损网络遥测 流式
$gnmic subscribe --path /qos/pfc/ \
--mode ON_CHANGE --encoding proto
RoCEv2 Priority Group 3 — 实时
et-0/0/1 PG3 PFC-Rx: 0 Tx: 0 丢弃: 0
et-0/0/2 PG3 PFC-Rx: 0 Tx: 0 丢弃: 0
et-0/0/3 PG3 PFC-Rx: 0 Tx: 0 丢弃: 0
$gnmic subscribe --path /interfaces/counters/
et-0/0/1 in: 780 Gbps out: 776 Gbps
et-0/0/2 in: 795 Gbps out: 791 Gbps
→ Telegraf → Prometheus → Grafana
✓ 无损 — 0 丢包 — 架构健康
验证的 AI 网络平台
AIS800-64D
Edgecore — Spine
800GTH5
S9321-64E
UfiSpace — Spine
800GTH5
AS9736-64D
Edgecore — Leaf
400G / 25.6T
S9321-64EO
UfiSpace — Spine(OSFP)
800GTH5

40+ 已验证平台 — 完整 HCL →

Ultra Ethernet · 符合 UEC 1.0

fabric profile 已就绪 先于 NIC 完成。 这正是关键所在。

RoCEv2 是 2026 年的生产级传输方案;UEC 是下一步演进。UEC 1.0 fabric profile 增加了 packet spray、多路径 RDMA 与对乱序友好的转发——弥合了过去 RoCE 在多 rail 集合通信场景下落后于 InfiniBand 的单哈希限制。OcNOS-DC 跟随 UEC 1.0 fabric profile,而 UEC NICs 推进部署。重点并非引领标准——所有厂商都在向其靠拢。重点是本季度采购的交换机在 UEC NIC 到位时无需更换。

Packet spray

单条流可同时使用所有并行路径,而不再被绑定到单一 ECMP 哈希。多 rail 带宽不再闲置。

多路径 RDMA

重排缓冲区在硬件层面处理乱序投递。现代拥塞控制在尾时延方面取代了基于 NACK 的丢包恢复。

同一硬件,转发路径

当前已为 OcNOS-DC 验证的 TH4 与 TH5 平台可平滑延伸至 UEC。无需分叉、无需第二条 SKU 产品线。一套 fabric,两代传输。

阅读 Ultra Ethernet 深度解析 →
若在 2026 年选择 fabric

OcNOS-DC 的定位 — 诚实地、按名称列出。

竞争已收敛到共同的基线:lossless RoCEv2、DCQCN、自适应路由、UEC 对齐。这些功能各家都已交付。真正的差异点在于 解决方案形态 ——垂直锁定与开放 NOS、封闭硬件与开放硬件、闭环 IB 与标准 Ethernet。选择您可以接受五年的取舍。

解决方案形态 示例 权衡
封闭式垂直 AI 栈 NVIDIA Spectrum-X + Quantum + ConnectX 集成性能优异。NIC、交换机与 fabric 软件均绑定单一厂商——且绑定单一 GPU 路线图。
封闭式 merchant silicon NOS Arista EOS · Cisco NX-OS · Juniper Junos 底层采用相同的 Broadcom 芯片。按端口收取授权溢价。遥测与调优均受限于该厂商自有的 pipeline。
基于信元的专有机箱式 fabric DriveNets Network Cloud 不同的架构——调度式 cell fabric,而非 Ethernet NOS。在 hyperscale 场景下表现出色;但无法移植到标准交换机上。
闭环 InfiniBand NVIDIA Quantum InfiniBand 在紧耦合集合通信场景下当前居于业界前列。独立布线、独立运维、单一厂商生态。UEC 正在 Ethernet 侧弥合差距。
开放 NOS,未做 AI 强化 Community SONiC 开放硬件、免费软件、无 SLA。xCCL 默认调优、死锁监视与调优成熟度完全由运营商自行承担。
开放 NOS,面向 AI 强化,符合 UEC OcNOS-DC 运行于 Edgecore / UfiSpace 同款 Broadcom 芯片。开箱即享针对 xCCL 调优的 DCQCN、亚毫秒级 DLB、GLB 已纳入 7.1 路线图、PFC 死锁监视。UEC 1.0 fabric 配置文件。24/7 运营商级 SLA。无 NIC、GPU 或硬件锁定。

每一行都对应一款真实可交付的产品——包括 OcNOS-DC。问题极少在于功能缺失;而在于您将与哪种取舍长期共存。

等一下——所谓的 "AI fabric" 究竟是什么?

它的实质 — 以及其止步之处。

AI 集群由三层构成。 fabric 在交换机之间传输字节; NIC 终结 RDMA; scheduler 决定什么在何处运行。所谓「AI-aware fabric」通常意味着单一厂商将三者打包在同一 SKU 之下。OcNOS-DC 负责 fabric,开放每一项阈值,且不越界进入上层。以下是清晰命名的边界。

第 1 层 · fabric

OcNOS-DC 负责的范围。

  • 无损 RoCEv2 传输——PFC + ECN + ETS + DCBX
  • 采用 xCCL 验证默认阈值的 DCQCN,所有参数均以 YANG 建模
  • DLB 基于 ASIC 实时队列深度,在亚毫秒级完成 flowlet 重绑定
  • GLB 全 fabric 路径评分(OcNOS 7.1)
  • PFC 死锁监控——按端口、按优先级
  • 对齐 UEC 1.0 fabric profile——支持 packet spray 的转发方式
  • gNMI on-change 遥测、OpenConfig YANG,亚秒级采样周期
目前已在 Edgecore / UfiSpace TH4 + TH5 上发货。GLB 随 OcNOS 7.1 版本发布。
第 2 层 · NIC + 传输

NIC 厂商的职责。

  • xCCL 集体通信的实现与调优
  • RDMA verbs、queue pair、重传逻辑
  • UEC packet spray 端点 + 重排序缓冲(UEC NIC)
  • GPU-Direct 内存访问、NVLink 协同
  • 按流的速率限制与端侧主机的拥塞响应
NVIDIA ConnectX、BlueField、AMD Pensando、Intel Mt. Evans、Cornelis 以及未来的 UEC 芯片。OcNOS 与上述全部互通——而绝不替代您的选型。
第 3 层 · 集群调度器

您的编排平台的职责。

  • 训练作业调度部署、gang scheduling、梯度同步窗口
  • Epoch / 训练阶段感知
  • tenant 隔离、队列优先级、资源配额
  • xCCL 环形拓扑分配,轨道组亲和性
  • 跨任务干扰检测
Slurm、Kubernetes、Run:ai、NVIDIA Base Command 以及自研调度器。OcNOS-DC 将 gNMI 遥测流式上送至这些系统——并不试图替代它们。
界线划在此处的原因: 掌控二层和三层的 fabric 将永远无法替换 — NIC 被锁到交换机、调度器被锁到 NIC、GPU 路线图被锁到厂商。InfiniBand 将这三者掌控了十五年,运营商为此付出了代价。OcNOS-DC 提供 2026 年工作负载所需的每一项 fabric 机制,对 xCCL 流量进行验证,边界止于线路。这就是为什么 "AI 感知型 fabric" 是错误的问题 — 正确的问题是 fabric 是否把自己的工作做得足够好,以至于 NIC 和调度器无需与之对抗。
深入了解

本页中的每项机制均具备 各自独立的深度解析。

上方页面用于选择 fabric。以下内容用于对其进行调优——packet capture、ASIC 行为、YANG path,以及各项特性在 release train 中的交付节点。

AI fabric · 无损

RoCEv2 + PFC + ECN + DCQCN

面向 GPU 集体通信的无损 RDMA 传输层。按 Broadcom ASIC 预调优的缓冲配置、xCCL 级 DCQCN 默认值、负载下亚微秒级抖动。

阅读深度解析 →
AI fabric · 本地

自适应动态负载均衡(DLB)

基于 ASIC 队列深度实时遥测的亚毫秒级 flowlet 重绑定。可弥合 AllReduce elephant flow 在 ECMP 哈希冲突处的差距。

阅读深度解析 →
AI fabric · 全 fabric 范围 OcNOS 7.1

全局负载均衡(GLB)

在 leaf · spine · super-spine 之间进行端到端路径评分,可支撑最高 16k GPU 的集群规模。是 DLB 单独无法感知的多跳自适应层。

阅读深度解析 →
AI fabric · frontier UEC 1.0

Ultra Ethernet(UEC)

Packet spray、多路径 RDMA、乱序投递、现代拥塞控制。这是基于标准、面向 InfiniBand 的开放答案。

阅读深度解析 →
AI fabric · 参考设计

拓扑 — 从单 pod 到 16k GPU

rail-only 与 rail-optimized 设计将 fabric 形态直接映射到 xCCL 的 8 轨多 NIC 模式。三级 Clos 支持多 pod 横向扩展至 16k GPU 上限。端口数以 TH4 / TH5 平台为准。

阅读深度解析 →
AI fabric · 拥塞控制

DCQCN — RDMA 拥塞控制

WRED ECN 标记、CNP 反馈、量化速率控制。开箱即享 xCCL 级默认值,所有阈值均以 YANG 建模可调。

阅读深度解析 →
AI fabric · 存续

Watchdog — PFC 死锁检测

按端口、按优先级的 watchdog 检测暂停队列的循环,并在训练作业挂起之前自动清空受影响的队列。

阅读深度解析 →
AI fabric · 决策指南

InfiniBand 与 Ethernet 在 AI 场景的对比

按工作负载的决策指南。说明现代 Ethernet(RoCEv2 + DLB + UEC)在何处已弥合差距、IB 在何处仍占优,以及如何选型。

阅读深度解析 →
可观测性

gNMI 流式遥测

通过 gRPC 提供的 gNMI Subscribe、OpenConfig YANG、dial-out collector。与 Telegraf、Prometheus 与 Grafana 集成。

阅读深度解析 →
客户实际在构建什么

三种集群形态。 三段 fabric 故事。

以作业的实际感受为划分依据,而非以交换机功能为基础。选择与您最接近的形态;具体配置见深入解析。

形态 01 · LLM 预训练

为期数周的 LLM 预训练任务。

AllReduce 主导网络流量。每块 GPU 都必须维持高水平的集合通信内利用率,并在微突发下保持稳定,不致使九天的训练重启。

机制: DCQCN + DLB + PFC Watchdog。单 pod 采用 rail-optimized;多 pod 横向扩展采用带 GLB 的 3 级 Clos。
结果: AllReduce 达到线速运行,collective 零重启,JCT 控制在计划之内。

形态 02 · 在线推理

支撑公共 API 的高吞吐推理集群。

由 p99 尾时延决定 SLO 的实时推理场景。推理决不可排在批量再训练之后,运维一旦发现时延漂移即需具备按流可视化能力。

机制: ETS strict-priority + gNMI on-change 遥测,接入 Prometheus / OpenTelemetry。
结果: p99 稳定在 SLO 内;回归在毫秒级被发现,无需经由工单系统。

形态 03 · GPU 即服务

向 tenant 出租 H100 / H200 / Blackwell 的 neocloud。

多租户 GPU 云。每个 tenant 需要隔离的 lossless RoCEv2 路径——无需为每个客户划分独立的 fabric 分段,也无需第二份 NOS 镜像。

机制: 在单一 OcNOS-DC 实例上实现 EVPN-VXLAN 隔离与无损 RoCEv2。
结果: 按 tenant 隔离,统一运维模式、统一 SLA、单一镜像升级。

与网络架构师沟通

请提交您的拓扑。 我们将为您指明路径。

IPI 的每一次架构评审均由在生产中运行 OcNOS 的网络工程师主持——没有幻灯片,没有销售表演。提供 GPU 数量、NIC 选型与目标 JCT,即可在会上完成至拓扑、SKU 与当前可交付配置的映射。

AI 集群架构师真正关心的问题

坦诚而言 FAQ.

OcNOS-DC 是否真正 "AI-native"——还是仅在 RoCEv2 基础上加了些扩展?
没有任何基于 merchant silicon 的 Ethernet NOS 在严格意义上是 AI-native——没有 NOS 会解析 xCCL(NCCL / RCCL / oneCCL)集合通信,也不会在交换机上调度作业;这属于 NIC 和调度器的职责。OcNOS-DC 实现了 2026 年 AI 工作负载所需的全部 fabric 机制——lossless RoCEv2、采用经 xCCL 验证默认参数的 DCQCN、亚毫秒级 DLB、GLB(OcNOS 7.1)、PFC 死锁 watchdog、UEC 1.0 对齐——同时不越界进入上层。所谓「AI-aware fabric」通常仅意味着单一厂商将 NIC + 交换机 + 调度器作为一个绑定 SKU 出售。
OcNOS-DC 的边界在哪里,NIC 与集群调度器又从何处接管?
OcNOS-DC 负责 layer 1——lossless RDMA 传输、拥塞控制、自适应路由、死锁恢复、遥测。NIC 负责 layer 2(xCCL、RDMA verbs、packet spray、GPU-Direct 内存);调度器负责 layer 3(作业放置、梯度同步窗口、租户隔离)。OcNOS-DC 将 gNMI 遥测数据流式上送至 layer 3,但绝不试图扮演调度器——这种分层使 NIC、GPU 与编排系统始终保持可替换。
OcNOS AI Fabric 与 NVIDIA Spectrum-X、SONiC、Arista、Cisco 或 DriveNets 相比如何?
Spectrum-X 是 NVIDIA 封闭的 NIC + 交换机 + 软件栈——性能卓越,但单一厂商锁定。Arista、Cisco 与 Juniper 在锁定硬件上以专有授权提供类似的 RoCEv2 功能。Community SONiC 是开放的,但不提供 AI 场景下经过加固的默认参数、watchdog 或 SLA。DriveNets DDC 是一种专有的 cell fabric,并非 Ethernet NOS。OcNOS-DC:运行于相同 Broadcom 芯片上的开放 NOS,UEC 对齐、xCCL 调优的 DCQCN、24/7 SLA——技术基准一致,无任何锁定。
Ultra Ethernet (UEC) 1.0 对 OcNOS AI Fabric 意味着什么?
UEC 1.0 为 Ethernet 引入 packet spray、多路径 RDMA 与乱序投递——这是面向 InfiniBand 的开放答案。生产 fabric 目前运行 RoCEv2 + DCQCN + DLB,均已获得完整支持;UEC 将每条流并行分发至所有路径,而非将其绑定到单一 ECMP 哈希。OcNOS-DC 跟随 UEC 1.0 fabric profile,因此当前采购的交换机无需更换 NOS 或硬件即可迁移至 UEC NIC。详见 Ultra Ethernet 深度解析.
RoCEv2 是什么,为什么需要无损以太网架构?
RoCEv2 使 AllReduce 与 AllGather 等集合通信能够在无 CPU 开销的情况下完成 GPU 到 GPU 的直接内存传输。RDMA 没有重传机制——单个丢包将使该操作在所有 GPU 上重启——因此 lossless fabric(PFC + ECN)在生产环境中是硬性要求。OcNOS-DC 提供与 xCCL 集合通信模式对齐的 RoCEv2 缓冲区 profile 与 DCQCN 默认参数。
OcNOS-DC 如何保证零丢包——以及如何防范 PFC 死锁?
三种机制:PFC 在缓冲区溢出前按优先级暂停流量;ECN 提前标记报文以让发送端减速;ETS 让 RDMA 流量优先于较低优先级流量。在此之上,按端口、按优先级的 deadlock watchdog 会检测暂停队列的循环,并在作业挂起前自动清空队列——过去这种故障模式曾迫使在作业中途对交换机进行电源重启。PFC over L3 在路由边界之间同样受支持。
什么是 DLB?OcNOS 7.1 中的 GLB 又带来了哪些变化?
标准 ECMP 在流的整个生命周期内将其绑定到单一 uplink,从而在 AllReduce 期间造成 elephant flow 冲突。DLB 利用 ASIC 队列深度的实时遥测,在亚毫秒级内将 flowlet 重绑定至负载较轻的路径,在本地 hop 弥合差距。GLB(OcNOS 7.1)将其扩展为端到端——spine 将路径质量遥测回送至 ingress leaf,路由据此使用完整的多跳评分,可干净地扩展至最高 16k GPU 的集群规模。
OcNOS AI Fabric 支持何种规模——以及哪些参考设计已通过验证?
OcNOS-DC 支持 400G 与 800G 的 leaf-spine fabric。 Tomahawk 5 spine 交换机(Edgecore AIS800-64D、UfiSpace S9321-64E)提供 51.2 Tbps / 64 × 800G; Tomahawk 4 leaf 交换机以 400G / 25.6 Tbps 运行,配备深度 HBM 缓存; Trident 4 覆盖规模较小的 100G/400G fabric。参考设计涵盖 rail-only、rail-optimized 以及最高 16k GPU 的 3 级 Clos 拓扑——详见 AI fabric 拓扑深度解析.
OcNOS-DC 是否支持面向 AI 架构运维的自动化与遥测?
支持。DCBX 自动完成 server 到 switch 的 RoCEv2 配置,ZTP(IPv4/IPv6)负责零接触上线,gNMI 基于 OpenConfig YANG 流式上送 on-change 遥测。PFC 暂停、ECN 标记、DCQCN 阈值与缓冲区深度均以 gNMI sensor path 形式提供,可由 Prometheus、InfluxDB、Telegraf、Grafana 或任意 OpenTelemetry pipeline 消费。Ansible playbook 与 Terraform provider 覆盖 Day-0 至 Day-2 全周期。