对齐 UEC 1.0 · DCQCN · DLB · GLB（OcNOS 7.1）· 最高支持 16k GPU

一个开放的 AI fabric — 面向训练作业的实际体验而构建。

Q: Ultra Ethernet (UEC) 1.0 对 OcNOS AI Fabric 意味着什么？

UEC 1.0 brings packet spray, multi-path RDMA, and out-of-order delivery to Ethernet — the open answer to InfiniBand. Production fabrics run RoCEv2 + DCQCN + DLB today, all fully supported; UEC parallelizes every flow across paths instead of pinning it to one ECMP hash. OcNOS-DC tracks the UEC 1.0 fabric profile so the switch you buy today moves to UEC NICs without a NOS or hardware swap. See the Ultra Ethernet 深度解析 .

Q: OcNOS AI Fabric 支持何种规模——以及哪些参考设计已通过验证？

OcNOS-DC supports 400G and 800G leaf-spine fabrics. Tomahawk 5 spines (Edgecore AIS800-64D, UfiSpace S9321-64E) deliver 51.2 Tbps / 64 × 800G; Tomahawk 4 leaf 交换机以 400G / 25.6 Tbps 运行，配备深度 HBM 缓存； Trident 4 covers smaller 100G/400G fabrics. Reference designs cover rail-only, rail-optimized, and 3-stage Clos topologies up to 16k GPU — see the AI fabric 拓扑深度解析 .

在数千颗加速器规模下，衡量交换机的标准不是 Tbps——而是 job completion time、GPU 利用率，以及 microburst 下的尾延迟。OcNOS-DC 在带 24/7 carrier-grade SLA 的开放 merchant silicon 上达成相同数据：技术基准与封闭 AI 栈一致，但不带来任何锁定。

预约架构评审查看 800G 硬件

最多 16k GPU参考设计上限

亚毫秒 DLBFlowlet 重绑定

UEC 1.0与 fabric profile 一致

24/7 SLAcarrier-grade 全球

协议：

RoCEv2 PFC / DCQCN ECMP / UCMP BGP 400G / 800G EVPN-VXLAN 无损网络 gNMI 流式遥测 OpenConfig NETCONF / YANG 自适应路由 (DLB) FLFM GLB UEC 1.0 基于模型的 OS

16k GPU

参考设计上限

DCQCN

针对 xCCL 调优,所有阈值均以 YANG 建模。

DLB + GLB

本地 flowlet 与全 fabric 范围的自适应路由

UEC 1.0

对齐 fabric profile · 面向 IB 的开放答案

架构简报

可离线阅读。可在飞机上阅读。

两份简短的下载文档，深入程度超过本页：lossless AI fabric 架构与 EVPN-VXLAN data center 参考设计。

解决方案简报

OcNOS 800G 以太网无损 AI 网络

基于 Tomahawk 4/5 spine 的无阻塞 RoCEv2 网络——SKU 层级、经验证平台与部署架构。

获取简报

解决方案简报

EVPN-VXLAN 数据中心网络

运营商级 leaf-spine 数据中心网络：对称 IRB、Type-2/Type-5 路由、分布式 anycast 网关。

获取简报

构建者的提问

"我的训练任务真的会更快完成吗？"

在大规模场景下，传统网络指标已失去参考意义。真正重要的是 Job Completion Time、GPU 利用率，以及 microburst 下的尾延迟 ——因为价值数十亿美元的集群每等待一个同步步骤一分钟，都是资本的直接燃烧。

AI 所需的 lossless、低时延性能已不再依赖封闭的专有栈。在带有 carrier-grade SLA 的开放 merchant silicon 之上，OcNOS-DC 在不引入任何 vendor lock-in 的前提下达到与封闭架构相同的技术基准——拥塞管理、亚毫秒级动态路由以及 Ultra Ethernet 对齐，针对集合通信流量的突发模式进行了调优。GPU 将时间用于数据处理，而非等待网络。

所有阈值均已开放,您的团队可针对真实 xCCL (NCCL / RCCL / oneCCL) 流量进行调优。以下:每种工作负载模式、对应的处理机制,以及运营商可获得的收益。

AllReduce / AllGather

每个 GPU 都会与 其他所有 GPU 同时进行。

静态 ECMP 将 elephant flow 绑定到单条 spine 链路——产生热点、闲置 uplink 与同步缓慢。
→ DLB 依据实时队列深度，在亚毫秒级重新绑定 flowlet。
→ GLB （OcNOS 7.1）对 leaf · spine · super-spine 路径进行评分。

结果： 无 hash 冲突造成的热点；AllReduce 保持接近线速。

Microburst / incast

N 个发送端汇聚至同一队列于 微秒。

丢包会重启集合通信；pause 风暴则会阻塞链路。无论哪种情况，运行都将停滞。
→ DCQCN (针对 xCCL 调优的 ECN + CNP) 在丢包前封顶速率。
→ PFC Watchdog 按端口自动清空阻塞队列。

结果： 作业能够抵御突发流量；死锁自动恢复——无需凌晨三点重启设备。

Multi-rail / scale-out

单条流需要 每一条并行路径 同时进行。

Hash 固定的单路径 ECMP 使 multi-rail 带宽闲置。
→ UEC 1.0：packet spray + 多路径 RDMA + 乱序投递。
→ 今天采购的交换机，在 UEC NIC 落地后仍可继续使用。

结果： 随着 UEC NIC 的部署推进，尾时延异常值将进一步收窄——这是面向 InfiniBand 的开放答案。

~55% → 90%+

参考基准。 DLB 在同一硬件上将 fabric 利用率从静态 ECMP 下的约 55% 提升至 90% 以上——无需新增 uplink。在每一 hop 上本地生效；在整个 AllReduce 范围内系统级生效。（Broadcom 公开发布的 flowlet 再均衡数据，可在 TH4/TH5 上复现。）

DLB 深度解析 →

在一排机柜中的实际形态

800G spine-leaf，实现机柜到机柜的无损传输。

3 级 Clos：eBGP unnumbered underlay、各层 ECMP、按优先级组的 PFC/ECN、用于 ZTP 与遥测的隔离 out-of-band 总线。将鼠标悬停于任一节点可查看交换机型号、端口数与 ASIC。

OcNOS-DC leaf/spine

OcNOS-DC spine（DLB）

GPU 服务器 / 存储

Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl

600+生产环境中的 OcNOS 网络

26 年ZebOS 路由协议栈正在生产运行

24×7carrier-grade 全球 SLA

fabric 内部

四层无损 — 自第 1 天起即正确无误。

大多数 AI fabric 故障可追溯到某一个配置错误的 PFC 优先级组，或是按 cloud 而非 RDMA 调优的 ECN 阈值。OcNOS-DC 内置按 Broadcom ASIC 逐一验证的 RoCEv2 缓冲区 profile——因此首次 AllReduce 即可以 lossless 方式运行，无需经历一轮调优冲刺。

PFC + ECN——按 priority group 的无损流控

PFC 在缓冲区溢出前按优先级暂停流量；ECN 提前标记报文以让发送端减速。无丢包、无端口级停顿。PFC over L3 适用于路由多行 fabric。

DLB — flowlet 级自适应路由

当 8 块 NIC 哈希到同一台 spine 时，静态哈希 ECMP 会发生冲突。DLB 实时观测队列深度，并在亚毫秒内将 flowlet 重绑定至负载较轻的路径——AllReduce 不再被最慢的链路拖累。

DCBX——服务器配置经由 LLDP 自动下发

Leaf 自动向 GPU 服务器下发正确的 PFC 与 ETS 配置——节点被重新部署时不会出现 lossless 特性的静默丢失，这是生产环境中最常见的故障模式。

gNMI on-change 遥测——亚秒级可观测性

PFC 暂停、ECN 标记、DCQCN 阈值与缓冲区深度均以 gNMI on-change sensor path 形式输出——直接进入 Prometheus / Grafana / OpenTelemetry。在拥塞导致作业停滞之前即可捕获。

ai-leaf01 — gNMI 无损网络遥测流式

$gnmic subscribe --path /qos/pfc/ \

--mode ON_CHANGE --encoding proto

RoCEv2 Priority Group 3 — 实时

et-0/0/1 PG3 PFC-Rx： 0 Tx: 0 丢弃： 0

et-0/0/2 PG3 PFC-Rx： 0 Tx: 0 丢弃： 0

et-0/0/3 PG3 PFC-Rx： 0 Tx: 0 丢弃： 0

$gnmic subscribe --path /interfaces/counters/

et-0/0/1 in: 780 Gbps out: 776 Gbps

et-0/0/2 in: 795 Gbps out: 791 Gbps

→ Telegraf → Prometheus → Grafana

✓ 无损 — 0 丢包 — 架构健康

验证的 AI 网络平台

AIS800-64D

Edgecore — Spine

800GTH5

S9321-64E

UfiSpace — Spine

800GTH5

AS9736-64D

Edgecore — Leaf

400G / 25.6T

S9321-64EO

UfiSpace — Spine（OSFP）

800GTH5

40+ 已验证平台 — 完整 HCL →

Ultra Ethernet · 符合 UEC 1.0

fabric profile 已就绪先于 NIC 完成。这正是关键所在。

RoCEv2 是 2026 年的生产级传输方案；UEC 是下一步演进。UEC 1.0 fabric profile 增加了 packet spray、多路径 RDMA 与对乱序友好的转发——弥合了过去 RoCE 在多 rail 集合通信场景下落后于 InfiniBand 的单哈希限制。OcNOS-DC 跟随 UEC 1.0 fabric profile，而 UEC NICs 推进部署。重点并非引领标准——所有厂商都在向其靠拢。重点是本季度采购的交换机在 UEC NIC 到位时无需更换。

Packet spray

单条流可同时使用所有并行路径，而不再被绑定到单一 ECMP 哈希。多 rail 带宽不再闲置。

多路径 RDMA

重排缓冲区在硬件层面处理乱序投递。现代拥塞控制在尾时延方面取代了基于 NACK 的丢包恢复。

同一硬件，转发路径

当前已为 OcNOS-DC 验证的 TH4 与 TH5 平台可平滑延伸至 UEC。无需分叉、无需第二条 SKU 产品线。一套 fabric，两代传输。

阅读 Ultra Ethernet 深度解析 →

若在 2026 年选择 fabric

OcNOS-DC 的定位 — 诚实地、按名称列出。

竞争已收敛到共同的基线：lossless RoCEv2、DCQCN、自适应路由、UEC 对齐。这些功能各家都已交付。真正的差异点在于 解决方案形态 ——垂直锁定与开放 NOS、封闭硬件与开放硬件、闭环 IB 与标准 Ethernet。选择您可以接受五年的取舍。

解决方案形态示例权衡

封闭式垂直 AI 栈 NVIDIA Spectrum-X + Quantum + ConnectX 集成性能优异。NIC、交换机与 fabric 软件均绑定单一厂商——且绑定单一 GPU 路线图。

封闭式 merchant silicon NOS Arista EOS · Cisco NX-OS · Juniper Junos 底层采用相同的 Broadcom 芯片。按端口收取授权溢价。遥测与调优均受限于该厂商自有的 pipeline。

基于信元的专有机箱式 fabric DriveNets Network Cloud 不同的架构——调度式 cell fabric，而非 Ethernet NOS。在 hyperscale 场景下表现出色；但无法移植到标准交换机上。

闭环 InfiniBand NVIDIA Quantum InfiniBand 在紧耦合集合通信场景下当前居于业界前列。独立布线、独立运维、单一厂商生态。UEC 正在 Ethernet 侧弥合差距。

开放 NOS，未做 AI 强化 Community SONiC 开放硬件、免费软件、无 SLA。xCCL 默认调优、死锁监视与调优成熟度完全由运营商自行承担。

开放 NOS，面向 AI 强化，符合 UEC OcNOS-DC 运行于 Edgecore / UfiSpace 同款 Broadcom 芯片。开箱即享针对 xCCL 调优的 DCQCN、亚毫秒级 DLB、GLB 已纳入 7.1 路线图、PFC 死锁监视。UEC 1.0 fabric 配置文件。24/7 运营商级 SLA。无 NIC、GPU 或硬件锁定。

每一行都对应一款真实可交付的产品——包括 OcNOS-DC。问题极少在于功能缺失；而在于您将与哪种取舍长期共存。

等一下——所谓的 "AI fabric" 究竟是什么？

它的实质 — 以及其止步之处。

AI 集群由三层构成。 fabric 在交换机之间传输字节； NIC 终结 RDMA； scheduler 决定什么在何处运行。所谓「AI-aware fabric」通常意味着单一厂商将三者打包在同一 SKU 之下。OcNOS-DC 负责 fabric，开放每一项阈值，且不越界进入上层。以下是清晰命名的边界。

第 1 层 · fabric

OcNOS-DC 负责的范围。

无损 RoCEv2 传输——PFC + ECN + ETS + DCBX
采用 xCCL 验证默认阈值的 DCQCN,所有参数均以 YANG 建模
DLB 基于 ASIC 实时队列深度，在亚毫秒级完成 flowlet 重绑定
GLB 全 fabric 路径评分（OcNOS 7.1）
PFC 死锁监控——按端口、按优先级
对齐 UEC 1.0 fabric profile——支持 packet spray 的转发方式
gNMI on-change 遥测、OpenConfig YANG，亚秒级采样周期

目前已在 Edgecore / UfiSpace TH4 + TH5 上发货。GLB 随 OcNOS 7.1 版本发布。

第 2 层 · NIC + 传输

NIC 厂商的职责。

xCCL 集体通信的实现与调优
RDMA verbs、queue pair、重传逻辑
UEC packet spray 端点 + 重排序缓冲（UEC NIC）
GPU-Direct 内存访问、NVLink 协同
按流的速率限制与端侧主机的拥塞响应

NVIDIA ConnectX、BlueField、AMD Pensando、Intel Mt. Evans、Cornelis 以及未来的 UEC 芯片。OcNOS 与上述全部互通——而绝不替代您的选型。

第 3 层 · 集群调度器

您的编排平台的职责。

训练作业调度部署、gang scheduling、梯度同步窗口
Epoch / 训练阶段感知
tenant 隔离、队列优先级、资源配额
xCCL 环形拓扑分配,轨道组亲和性
跨任务干扰检测

Slurm、Kubernetes、Run:ai、NVIDIA Base Command 以及自研调度器。OcNOS-DC 将 gNMI 遥测流式上送至这些系统——并不试图替代它们。

界线划在此处的原因： 掌控二层和三层的 fabric 将永远无法替换 — NIC 被锁到交换机、调度器被锁到 NIC、GPU 路线图被锁到厂商。InfiniBand 将这三者掌控了十五年,运营商为此付出了代价。OcNOS-DC 提供 2026 年工作负载所需的每一项 fabric 机制,对 xCCL 流量进行验证,边界止于线路。这就是为什么 "AI 感知型 fabric" 是错误的问题 — 正确的问题是 fabric 是否把自己的工作做得足够好,以至于 NIC 和调度器无需与之对抗。

深入了解

本页中的每项机制均具备各自独立的深度解析。

上方页面用于选择 fabric。以下内容用于对其进行调优——packet capture、ASIC 行为、YANG path，以及各项特性在 release train 中的交付节点。

AI fabric · 无损

RoCEv2 + PFC + ECN + DCQCN

面向 GPU 集体通信的无损 RDMA 传输层。按 Broadcom ASIC 预调优的缓冲配置、xCCL 级 DCQCN 默认值、负载下亚微秒级抖动。

阅读深度解析 → AI fabric · 本地

自适应动态负载均衡（DLB）

基于 ASIC 队列深度实时遥测的亚毫秒级 flowlet 重绑定。可弥合 AllReduce elephant flow 在 ECMP 哈希冲突处的差距。

阅读深度解析 → AI fabric · 全 fabric 范围 OcNOS 7.1

全局负载均衡（GLB）

在 leaf · spine · super-spine 之间进行端到端路径评分，可支撑最高 16k GPU 的集群规模。是 DLB 单独无法感知的多跳自适应层。

阅读深度解析 → AI fabric · frontier UEC 1.0

Ultra Ethernet（UEC）

Packet spray、多路径 RDMA、乱序投递、现代拥塞控制。这是基于标准、面向 InfiniBand 的开放答案。

阅读深度解析 → AI fabric · 参考设计

拓扑 — 从单 pod 到 16k GPU

rail-only 与 rail-optimized 设计将 fabric 形态直接映射到 xCCL 的 8 轨多 NIC 模式。三级 Clos 支持多 pod 横向扩展至 16k GPU 上限。端口数以 TH4 / TH5 平台为准。

阅读深度解析 → AI fabric · 拥塞控制

DCQCN — RDMA 拥塞控制

WRED ECN 标记、CNP 反馈、量化速率控制。开箱即享 xCCL 级默认值,所有阈值均以 YANG 建模可调。

阅读深度解析 → AI fabric · 存续

Watchdog — PFC 死锁检测

按端口、按优先级的 watchdog 检测暂停队列的循环，并在训练作业挂起之前自动清空受影响的队列。

阅读深度解析 → AI fabric · 决策指南

InfiniBand 与 Ethernet 在 AI 场景的对比

按工作负载的决策指南。说明现代 Ethernet（RoCEv2 + DLB + UEC）在何处已弥合差距、IB 在何处仍占优，以及如何选型。

阅读深度解析 → 可观测性

gNMI 流式遥测

通过 gRPC 提供的 gNMI Subscribe、OpenConfig YANG、dial-out collector。与 Telegraf、Prometheus 与 Grafana 集成。

阅读深度解析 →

客户实际在构建什么

三种集群形态。三段 fabric 故事。

以作业的实际感受为划分依据，而非以交换机功能为基础。选择与您最接近的形态；具体配置见深入解析。

形态 01 · LLM 预训练

为期数周的 LLM 预训练任务。

AllReduce 主导网络流量。每块 GPU 都必须维持高水平的集合通信内利用率，并在微突发下保持稳定，不致使九天的训练重启。

机制： DCQCN + DLB + PFC Watchdog。单 pod 采用 rail-optimized；多 pod 横向扩展采用带 GLB 的 3 级 Clos。
结果： AllReduce 达到线速运行，collective 零重启，JCT 控制在计划之内。

形态 02 · 在线推理

支撑公共 API 的高吞吐推理集群。

由 p99 尾时延决定 SLO 的实时推理场景。推理决不可排在批量再训练之后，运维一旦发现时延漂移即需具备按流可视化能力。

机制： ETS strict-priority + gNMI on-change 遥测，接入 Prometheus / OpenTelemetry。
结果： p99 稳定在 SLO 内；回归在毫秒级被发现，无需经由工单系统。

形态 03 · GPU 即服务

向 tenant 出租 H100 / H200 / Blackwell 的 neocloud。

多租户 GPU 云。每个 tenant 需要隔离的 lossless RoCEv2 路径——无需为每个客户划分独立的 fabric 分段，也无需第二份 NOS 镜像。

机制： 在单一 OcNOS-DC 实例上实现 EVPN-VXLAN 隔离与无损 RoCEv2。
结果： 按 tenant 隔离，统一运维模式、统一 SLA、单一镜像升级。

与网络架构师沟通

请提交您的拓扑。我们将为您指明路径。

IPI 的每一次架构评审均由在生产中运行 OcNOS 的网络工程师主持——没有幻灯片，没有销售表演。提供 GPU 数量、NIC 选型与目标 JCT，即可在会上完成至拓扑、SKU 与当前可交付配置的映射。

预约架构评审免费下载 OcNOS VM

在选定 AI fabric 之后

将其连接至其他一切。

AI 只是 data center 的一个分段。DC Fabric 与 DCI 将同一份 OcNOS 镜像延伸至计算、存储与远端站点——同一 NOS、同一 CLI、同一 SLA。

AI 集群架构师真正关心的问题

坦诚而言 FAQ.

OcNOS-DC 是否真正 "AI-native"——还是仅在 RoCEv2 基础上加了些扩展？

没有任何基于 merchant silicon 的 Ethernet NOS 在严格意义上是 AI-native——没有 NOS 会解析 xCCL（NCCL / RCCL / oneCCL）集合通信，也不会在交换机上调度作业；这属于 NIC 和调度器的职责。OcNOS-DC 实现了 2026 年 AI 工作负载所需的全部 fabric 机制——lossless RoCEv2、采用经 xCCL 验证默认参数的 DCQCN、亚毫秒级 DLB、GLB（OcNOS 7.1）、PFC 死锁 watchdog、UEC 1.0 对齐——同时不越界进入上层。所谓「AI-aware fabric」通常仅意味着单一厂商将 NIC + 交换机 + 调度器作为一个绑定 SKU 出售。

OcNOS-DC 的边界在哪里，NIC 与集群调度器又从何处接管？

OcNOS-DC 负责 layer 1——lossless RDMA 传输、拥塞控制、自适应路由、死锁恢复、遥测。NIC 负责 layer 2（xCCL、RDMA verbs、packet spray、GPU-Direct 内存）；调度器负责 layer 3（作业放置、梯度同步窗口、租户隔离）。OcNOS-DC 将 gNMI 遥测数据流式上送至 layer 3，但绝不试图扮演调度器——这种分层使 NIC、GPU 与编排系统始终保持可替换。

OcNOS AI Fabric 与 NVIDIA Spectrum-X、SONiC、Arista、Cisco 或 DriveNets 相比如何？

Spectrum-X 是 NVIDIA 封闭的 NIC + 交换机 + 软件栈——性能卓越，但单一厂商锁定。Arista、Cisco 与 Juniper 在锁定硬件上以专有授权提供类似的 RoCEv2 功能。Community SONiC 是开放的，但不提供 AI 场景下经过加固的默认参数、watchdog 或 SLA。DriveNets DDC 是一种专有的 cell fabric，并非 Ethernet NOS。OcNOS-DC：运行于相同 Broadcom 芯片上的开放 NOS，UEC 对齐、xCCL 调优的 DCQCN、24/7 SLA——技术基准一致，无任何锁定。

Ultra Ethernet (UEC) 1.0 对 OcNOS AI Fabric 意味着什么？

UEC 1.0 为 Ethernet 引入 packet spray、多路径 RDMA 与乱序投递——这是面向 InfiniBand 的开放答案。生产 fabric 目前运行 RoCEv2 + DCQCN + DLB，均已获得完整支持；UEC 将每条流并行分发至所有路径，而非将其绑定到单一 ECMP 哈希。OcNOS-DC 跟随 UEC 1.0 fabric profile，因此当前采购的交换机无需更换 NOS 或硬件即可迁移至 UEC NIC。详见 Ultra Ethernet 深度解析.

RoCEv2 是什么,为什么需要无损以太网架构?

RoCEv2 使 AllReduce 与 AllGather 等集合通信能够在无 CPU 开销的情况下完成 GPU 到 GPU 的直接内存传输。RDMA 没有重传机制——单个丢包将使该操作在所有 GPU 上重启——因此 lossless fabric（PFC + ECN）在生产环境中是硬性要求。OcNOS-DC 提供与 xCCL 集合通信模式对齐的 RoCEv2 缓冲区 profile 与 DCQCN 默认参数。

OcNOS-DC 如何保证零丢包——以及如何防范 PFC 死锁？

三种机制：PFC 在缓冲区溢出前按优先级暂停流量；ECN 提前标记报文以让发送端减速；ETS 让 RDMA 流量优先于较低优先级流量。在此之上，按端口、按优先级的 deadlock watchdog 会检测暂停队列的循环，并在作业挂起前自动清空队列——过去这种故障模式曾迫使在作业中途对交换机进行电源重启。PFC over L3 在路由边界之间同样受支持。

什么是 DLB？OcNOS 7.1 中的 GLB 又带来了哪些变化？

标准 ECMP 在流的整个生命周期内将其绑定到单一 uplink，从而在 AllReduce 期间造成 elephant flow 冲突。DLB 利用 ASIC 队列深度的实时遥测，在亚毫秒级内将 flowlet 重绑定至负载较轻的路径，在本地 hop 弥合差距。GLB（OcNOS 7.1）将其扩展为端到端——spine 将路径质量遥测回送至 ingress leaf，路由据此使用完整的多跳评分，可干净地扩展至最高 16k GPU 的集群规模。

OcNOS AI Fabric 支持何种规模——以及哪些参考设计已通过验证？

OcNOS-DC 支持 400G 与 800G 的 leaf-spine fabric。 Tomahawk 5 spine 交换机（Edgecore AIS800-64D、UfiSpace S9321-64E）提供 51.2 Tbps / 64 × 800G； Tomahawk 4 leaf 交换机以 400G / 25.6 Tbps 运行，配备深度 HBM 缓存； Trident 4 覆盖规模较小的 100G/400G fabric。参考设计涵盖 rail-only、rail-optimized 以及最高 16k GPU 的 3 级 Clos 拓扑——详见 AI fabric 拓扑深度解析.

OcNOS-DC 是否支持面向 AI 架构运维的自动化与遥测?

支持。DCBX 自动完成 server 到 switch 的 RoCEv2 配置，ZTP（IPv4/IPv6）负责零接触上线，gNMI 基于 OpenConfig YANG 流式上送 on-change 遥测。PFC 暂停、ECN 标记、DCQCN 阈值与缓冲区深度均以 gNMI sensor path 形式提供，可由 Prometheus、InfluxDB、Telegraf、Grafana 或任意 OpenTelemetry pipeline 消费。Ansible playbook 与 Terraform provider 覆盖 Day-0 至 Day-2 全周期。