Alineado con UEC 1.0 · DCQCN · DLB · GLB (OcNOS 7.1) · hasta 16k GPU

Una AI fabric abierta — diseñado para lo que su job de training realmente experimenta.

Con miles de aceleradores no se miden los switches en Tbps; se miden job completion time, utilización de GPU y tail latency bajo microbursts. OcNOS-DC alcanza esas cifras sobre merchant silicon abierto con un SLA carrier-grade 24/7: la misma base técnica que los stacks de IA cerrados, sin ninguno de los lock-in.

Hasta 16k GPUTope del diseño de referencia
DLB sub-msRebinding de flowlets
UEC 1.0Alineado con el perfil de fabric
SLA 24/7Carrier-grade global
16k GPU
Tope del diseño de referencia
DCQCN
Ajustado para xCCL, cada umbral modelado en YANG.
DLB + GLB
Routing adaptativo flowlet local + a nivel de toda la fabric
UEC 1.0
Alineado con el fabric profile · respuesta abierta a IB
La pregunta de quien construye

«Mi job de entrenamiento ¿terminará realmente antes?"

A escala, las métricas de red tradicionales pierden significado. Lo que importa es Job Completion Time, utilización de GPU y tail latency bajo microbursts : porque cada minuto que un clúster de varios miles de millones espera a un paso de sincronización es capital quemado.

Las prestaciones lossless y de baja latencia que exige la IA ya no requieren un stack cerrado y propietario. Sobre merchant silicon abierto con SLA carrier-grade, OcNOS-DC alcanza la misma base técnica que las arquitecturas cerradas sin vendor lock-in: gestión de congestión, enrutamiento dinámico por debajo del milisegundo y alineamiento con Ultra Ethernet, ajustados a los patrones a ráfagas del tráfico colectivo. Las GPU dedican su tiempo a procesar datos, no a esperar a la red.

Cada umbral está expuesto, de modo que su equipo pueda ajustarlo frente a tráfico xCCL (NCCL / RCCL / oneCCL) real. A continuación: cada patrón de workload, el mecanismo que lo gestiona y lo que recibe el operador.

AllReduce / AllGather
Cada GPU se comunica con todas las demás GPU a la vez.
El ECMP estático fija los elephant flows a un único enlace de spine: puntos calientes, uplinks ociosos, sincronización lenta.
DLB reasigna flowlets en sub-ms según la profundidad real de las colas.
GLB (OcNOS 7.1) puntúa leaf · spine · super-spine.
Resultado: sin hot spots por colisiones de hash; AllReduce se mantiene cerca del line rate.
Microburst / incast
N emisores convergen en una sola cola en microsegundos.
Un descarte reinicia la colectiva; una tormenta de pausas bloquea la línea. En ambos casos la ejecución se detiene.
DCQCN (ECN + CNP ajustados para xCCL) limitan la tasa antes del descarte.
PFC Watchdog drena automáticamente las colas bloqueadas por puerto.
Resultado: los jobs sobreviven a los bursts; los deadlocks se auto-recuperan, sin power-cycle a las 3 de la madrugada.
Multi-rail / scale-out
Un flujo necesita cada ruta paralela simultáneamente.
El ECMP single-path basado en hash deja sin uso el ancho de banda multi-rail.
UEC 1.0: packet spray + RDMA multi-path + entrega out-of-order.
→ El switch que adquiera hoy permanecerá en servicio cuando lleguen las NIC UEC.
Resultado: los valores atípicos de tail latency se reducen a medida que se despliegan las NICs UEC: la respuesta abierta a InfiniBand.
~55 % → 90 %+

Benchmark de referencia. DLB eleva la utilización de la fabric desde aproximadamente el 55 % con ECMP estático hasta más del 90 % sobre el mismo hardware, sin uplinks adicionales. Local en cada hop; a nivel de sistema en todo el AllReduce. (Cifra publicada por Broadcom para el flowlet rebalancing, reproducible en TH4/TH5.)

Análisis técnico DLB →
Cómo se ve en una fila de racks

800G spine-leaf, lossless de rack a rack.

Un Clos de 3 etapas: underlay eBGP unnumbered, ECMP en cada nivel, PFC/ECN por grupo de prioridad, bus out-of-band aislado para ZTP y telemetría. Pase el cursor sobre cualquier nodo para ver switch, número de puertos y ASIC.

Topología de AI fabric a 800G con eBGP full-mesh y gestión OOB aislada Fabric AI 800G horizontal. Tres racks de GPU a la izquierda alimentan dos VTEP leaf que ejecutan OcNOS-DC, conectados a dos spines de 51,2 Tbps mediante un underlay eBGP ECMP full-mesh con DLB. Un bus de gestión out-of-band aislado, en la parte superior, transporta ZTP y telemetría. El almacenamiento de GPU NVMe-oF/NFS conectado a los leaves se sitúa a la derecha. Bus de gestión OOB aislado Gestión OOB Red aislada ZTP · Telemetría Rack GPU 1 8× nodos GPU RoCEv2 / RDMA Rack GPU 2 8× nodos GPU RoCEv2 / RDMA Rack GPU 3 8× nodos GPU RoCEv2 / RDMA Leaf-01 OcNOS-DC 64 × 400G Tomahawk 4 PFC / DCBX / ZTP RoCEv2 LOSSLESS MLAG PEER Leaf-02 OcNOS-DC 64 × 400G Tomahawk 4 PFC / DCBX / ZTP RoCEv2 LOSSLESS eBGP ECMP full mesh Spine-01 OcNOS-DC 51,2 Tbps · DLB eBGP · ECMP · DLB Spine-02 OcNOS-DC 51,2 Tbps · DLB eBGP · ECMP · DLB Almacenamiento GPU NVMe-oF / NFS Optimizado para RDMA OcNOS-DC — AI FABRIC — CLOS HORIZONTAL · PFC · ECN · DLB · 800G
OcNOS-DC leaf/spine
OcNOS-DC spine (DLB)
Servidores GPU / almacenamiento

Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl

600+Redes OcNOS en producción
26 añosStack de enrutamiento ZebOS en servicio
24×7SLA carrier-grade global
Dentro de la fabric

Cuatro capas de lossless — correcto el primer día.

La mayoría de los fallos en una AI fabric se deben a un grupo de prioridad PFC mal configurado o a un umbral ECN ajustado para cloud, no para RDMA. OcNOS-DC entrega perfiles de buffer RoCEv2 validados por ASIC Broadcom, de modo que el primer AllReduce se ejecuta lossless sin un sprint de tuning.

PFC + ECN — control lossless por priority group

PFC pausa el tráfico por prioridad antes de que los buffers se desborden; ECN marca los paquetes con antelación para ralentizar al emisor. Sin descartes, sin parada generalizada del puerto. PFC sobre L3 para fabrics enrutadas multi-row.

DLB — enrutamiento adaptativo a nivel de flowlet

El ECMP con hash estático colisiona cuando 8 NICs realizan hash sobre el mismo spine. DLB observa la profundidad de cola en tiempo real y redirige los flowlets a rutas menos cargadas en menos de un milisegundo: el AllReduce deja de quedar lastrado por el enlace más lento.

DCBX — configuración de servidor enviada automáticamente vía LLDP

El leaf transmite automáticamente al servidor GPU la configuración PFC y ETS correcta: sin pérdida silenciosa del comportamiento lossless cuando un nodo se reinstala, el modo de fallo más habitual en producción.

Telemetría gNMI on-change — visibilidad sub-segundo

Pausas PFC, marcado ECN, umbrales DCQCN y profundidades de buffer expuestos como sensor paths gNMI on-change, directamente hacia Prometheus / Grafana / OpenTelemetry. Detecte la congestión antes de que detenga un job.

ai-leaf01 — telemetría fabric sin pérdidas gNMI STREAMING
$gnmic subscribe --path /qos/pfc/ \
--mode ON_CHANGE --encoding proto
RoCEv2 Priority Group 3 — tiempo real
et-0/0/1 PG3 PFC-Rx: 0 Tx: 0 Drop: 0
et-0/0/2 PG3 PFC-Rx: 0 Tx: 0 Drop: 0
et-0/0/3 PG3 PFC-Rx: 0 Tx: 0 Drop: 0
$gnmic subscribe --path /interfaces/counters/
et-0/0/1 in: 780 Gbps out: 776 Gbps
et-0/0/2 in: 795 Gbps out: 791 Gbps
→ Telegraf → Prometheus → Grafana
✓ lossless — 0 descartes — fabric saludable
Plataformas Fabric IA validadas
AIS800-64D
Edgecore — spine
800GTH5
S9321-64E
UfiSpace — spine
800GTH5
AS9736-64D
Edgecore — leaf
400G / 25,6T
S9321-64EO
UfiSpace — spine (OSFP)
800GTH5

40+ plataformas cualificadas — HCL completo →

Ultra Ethernet · alineado con UEC 1.0

El perfil de fabric está listo antes que las NIC. Ese es precisamente el punto.

RoCEv2 es el transporte en producción en 2026; UEC es el paso siguiente. El perfil fabric UEC 1.0 añade packet spray, RDMA multi-path y reenvío compatible con out-of-order, cerrando el límite del hash único que mantenía las generaciones anteriores de RoCE un paso por detrás de InfiniBand en colectivas multi-rail. OcNOS-DC sigue UEC 1.0 fabric perfil hoy, mientras UEC NICs rollout. El punto no es liderar el estándar: todos se están alineando con él. El punto es que el switch adquirido en este trimestre no tendrá que sustituirse cuando llegue la NIC UEC.

Packet spray

Un único flujo utiliza simultáneamente todas las rutas paralelas en lugar de quedar fijado a un único hash ECMP. El ancho de banda multi-rail deja de quedar sin aprovechar.

RDMA multi-path

Los buffers de reordenamiento gestionan la entrega out-of-order en hardware. El control de congestión moderno sustituye a la recuperación de pérdidas basada en NACK en la tail latency.

Mismo hardware, forward path

Las plataformas TH4 y TH5 validadas hoy para OcNOS-DC se extienden a UEC. Sin fork. Sin una segunda línea de SKU. Una fabric, dos generaciones de transporte.

Lea el análisis técnico de Ultra Ethernet →
Si elige una fabric en 2026

Dónde se sitúa OcNOS-DC — honestamente, por nombre.

La carrera ha convergido en una base común: RoCEv2 lossless, DCQCN, enrutamiento adaptativo, alineamiento con UEC. Todos los entregan. El verdadero elemento diferenciador es perfil de solución : lock-in vertical frente a NOS abierto, hardware cerrado frente a hardware abierto, IB de bucle cerrado frente a Ethernet basado en estándares. Elija el trade-off con el que pueda convivir cinco años.

Perfil de solución Ejemplos Compromiso
Stack de IA vertical cerrado NVIDIA Spectrum-X + Quantum + ConnectX Prestaciones integradas excelentes. NIC, switch y software de fabric vinculados a un único proveedor, y a una única roadmap de GPU.
NOS cerrado sobre merchant silicon Arista EOS · Cisco NX-OS · Juniper Junos El mismo silicio Broadcom por debajo. Sobreprecio de licencia por puerto. Telemetría y tuning confinados al pipeline propio del proveedor.
Fabric de chasis propietaria basada en celdas DriveNets Network Cloud Arquitectura distinta: scheduled cell fabric, no un NOS Ethernet. Sólida en hyperscale; no portable a switches estándar.
InfiniBand de bucle cerrado NVIDIA Quantum InfiniBand Hoy en la cima en colectivas estrechas. Cableado separado, operación separada, ecosistema mono-proveedor. UEC cierra la brecha por el lado de Ethernet.
NOS abierto, sin AI hardening Community SONiC Hardware abierto, software gratuito, sin SLA. Los valores por defecto ajustados para xCCL, el watchdog de deadlock y la madurez del tuning quedan a cargo del operador.
NOS abierto, AI-hardened, alineado con UEC OcNOS-DC sobre Edgecore / UfiSpace El mismo silicio Broadcom. DCQCN ajustado a xCCL listo para usar, DLB sub-ms, GLB en la hoja de ruta 7.1, watchdog de deadlock PFC. Perfil de fabric UEC 1.0. SLA carrier-grade 24/7. Sin lock-in de NIC, GPU ni hardware.

Cada fila representa un producto real, incluido OcNOS-DC. La cuestión rara vez es una funcionalidad ausente; es el trade-off con el que se va a convivir.

Un momento: ¿qué es exactamente una «AI fabric»?

Qué es en realidad — y dónde se detiene.

Un clúster de IA consta de tres capas. La fabric mueve bytes entre switches; el NIC termina RDMA; el Planificador decide qué se ejecuta y dónde. «AI-aware fabric» normalmente significa que un único proveedor agrupa los tres elementos bajo una sola SKU. OcNOS-DC se ocupa de la fabric, expone cada umbral y se mantiene al margen de las capas superiores. La frontera, aquí, queda nombrada.

Capa 1 · fabric

De qué se ocupa OcNOS-DC.

  • Transporte RoCEv2 lossless — PFC + ECN + ETS + DCBX
  • DCQCN con umbrales por defecto validados con xCCL, cada parámetro modelado en YANG
  • Reasignación de flowlets DLB en sub-ms según la profundidad real de las colas del ASIC
  • Puntuación de paths GLB a nivel de toda la fabric (OcNOS 7.1)
  • Watchdog anti-deadlock PFC — por puerto, por prioridad
  • alineación con el fabric profile UEC 1.0 — forwarding compatible con packet spray
  • Telemetría gNMI on-change, OpenConfig YANG, cadencia sub-segundo
Disponible hoy sobre Edgecore / UfiSpace TH4 + TH5. GLB en la rama OcNOS 7.1.
Capa 2 · NIC + transporte

Responsabilidad de su proveedor de NIC.

  • Implementación y ajuste de colectivos xCCL
  • RDMA verbs, queue pairs, lógica de retransmisión
  • Endpoint UEC packet spray + reorder buffer (NIC UEC)
  • GPU-direct memory access, coordinación NVLink
  • Rate limiting por flujo y respuesta a la congestión en el end-host
NVIDIA ConnectX, BlueField, AMD Pensando, Intel Mt. Evans, Cornelis, futuro silicio UEC. OcNOS interopera con todos ellos, sin sustituir nunca la elección.
Capa 3 · planificador de clúster

Responsabilidad de su plataforma de orquestación.

  • Asignación de jobs de training, gang scheduling, ventanas de sincronización de gradiente
  • Conciencia de epoch / fase de entrenamiento
  • Aislamiento de tenants, prioridad de colas, cuotas de recursos
  • Asignación de topología en anillo xCCL, afinidad por grupo de rails
  • Detección de interferencias cross-job
Slurm, Kubernetes, Run:ai, NVIDIA Base Command, schedulers internos. OcNOS-DC les transmite telemetría gNMI: no intenta sustituirlos.
Por qué la línea está aquí: un fabric que controla las capas 2 y 3 nunca puede ser sustituido — NIC atado al conmutador, scheduler al NIC, hoja de ruta de GPU al proveedor. InfiniBand controló las tres durante quince años y los operadores pagaron el precio. OcNOS-DC entrega cada mecanismo de fabric que un workload 2026 necesita, lo valida frente a tráfico xCCL y no va más allá del cable. Por eso «fabric AI-aware» es la pregunta equivocada — la correcta es si el fabric hace su trabajo lo suficientemente bien como para que el NIC y el scheduler no tengan que combatirlo.
Profundizando

Cada mecanismo de esta página tiene su propio análisis técnico.

La página anterior sirve para elegir una fabric. Estos contenidos sirven para ajustar una: capturas de paquetes, comportamiento del ASIC, rutas YANG y en qué release train se publica cada funcionalidad.

AI fabric · lossless

RoCEv2 + PFC + ECN + DCQCN

Capa de transporte RDMA sin pérdidas para colectivos GPU. Perfiles de buffer preajustados por ASIC Broadcom, valores DCQCN por defecto de clase xCCL, jitter sub-µs bajo carga.

Leer análisis técnico →
AI fabric · local

Adaptive Dynamic Load Balancing (DLB)

Reasignación de flowlets por debajo del milisegundo basada en telemetría en vivo de profundidad de cola del ASIC. Cierra la brecha de colisiones de hash ECMP en los elephant flows de AllReduce.

Leer análisis técnico →
AI fabric · a nivel de fabric OcNOS 7.1

Global Load Balancing (GLB)

Puntuación de ruta de extremo a extremo en leaf · spine · super-spine para clústeres de hasta 16k GPU. La capa adaptativa multi-hop que DLB por sí solo no puede ver.

Leer análisis técnico →
AI fabric · frontier UEC 1.0

Ultra Ethernet (UEC)

Packet spray, RDMA multi-path, entrega out-of-order, control de congestión moderno. La respuesta abierta y basada en estándares a InfiniBand.

Leer análisis técnico →
AI fabric · diseños de referencia

Topologías — de single-pod a 16k GPU

Los diseños rail-only y rail-optimized mapean la forma del fabric directamente sobre el patrón multi-NIC de 8 rails de xCCL. Clos de 3 niveles para scale-out multi-pod hasta el techo de 16k GPU. Número de puertos en TH4 / TH5.

Leer análisis técnico →
AI fabric · control de congestión

DCQCN — control de congestión RDMA

Marcado WRED ECN, retroalimentación CNP, control de tasa cuantizado. Valores por defecto de clase xCCL listos para usar; cada umbral modelado en YANG para ajuste.

Leer análisis técnico →
AI fabric · supervivencia

Watchdog — detección de bloqueo PFC

Un watchdog por puerto y por prioridad detecta ciclos de colas pausadas y vacía automáticamente la cola afectada antes de que los jobs de entrenamiento se bloqueen.

Leer análisis técnico →
AI fabric · guía de decisión

InfiniBand vs Ethernet para IA

Guía de decisión específica por workload. Dónde el Ethernet moderno (RoCEv2 + DLB + UEC) cierra la brecha, dónde IB sigue por delante y cómo elegir.

Leer análisis técnico →
Observabilidad

Telemetría gNMI en streaming

gNMI Subscribe sobre gRPC, OpenConfig YANG, collectors dial-out. Integraciones con Telegraf, Prometheus y Grafana.

Leer análisis técnico →
Lo que realmente se está construyendo

Tres perfiles de clúster. Tres historias de fabric.

Estructurado a partir de lo que percibe el job, no de las funciones del switch. Elija el perfil más cercano al suyo; los análisis en profundidad contienen las configuraciones.

PERFIL 01 · PREENTRENAMIENTO DE LLM

La ejecución de preentrenamiento de LLM de varias semanas.

AllReduce domina la red. Cada GPU debe mantener una utilización elevada in-collective y sobrevivir a los microbursts sin reiniciar una ejecución de nueve días.

Mecanismos: DCQCN + DLB + watchdog PFC. Rail-optimized para single-pod; Clos de 3 etapas con GLB para scale-out multi-pod.
Resultado: AllReduce a line rate, cero reinicios de collective, JCT dentro de la planificación.

PERFIL 02 · INFERENCIA EN VIVO

La flota de inferencia de alto throughput detrás de una API pública.

Inferencia en tiempo real donde la tail latency p99 determina el SLO. La inferencia nunca debe quedar en cola tras el reentrenamiento batch, y operaciones necesita visibilidad por flujo en el momento mismo en que la latencia se desvía.

Mecanismos: ETS strict-priority + telemetría gNMI on-change hacia Prometheus / OpenTelemetry.
Resultado: p99 mantenido dentro del SLO; las regresiones se detectan en milisegundos, no en la cola de soporte.

PERFIL 03 · GPU COMO SERVICIO

La neocloud que alquila H100 / H200 / Blackwell a sus tenants.

Un cloud de GPU multi-tenant. Cada tenant requiere rutas RoCEv2 lossless aisladas, sin un segmento de fabric independiente por cliente ni una segunda imagen del NOS.

Mecanismos: Aislamiento EVPN-VXLAN + RoCEv2 lossless sobre una única instancia OcNOS-DC.
Resultado: aislamiento por tenant, un único modelo operativo, un único SLA, una única imagen que actualizar.

Hable con un arquitecto de red

Traiga su topología. Le mostraremos el camino.

Cada architecture review de IPI lo dirige un network engineer que opera OcNOS en producción: sin diapositivas, sin teatralización comercial. Aporten el número de GPU, la elección de NIC y el JCT objetivo; se traducirá a topología, SKUs y configuraciones disponibles hoy.

Preguntas que un arquitecto de clúster de IA se plantea de verdad

La respuesta honesta FAQ.

¿Es OcNOS-DC realmente "AI-native" o solo RoCEv2 con extras?
Ningún NOS Ethernet sobre merchant silicon es literalmente AI-native: ninguno razona sobre colectivas xCCL (NCCL / RCCL / oneCCL) ni planifica jobs en el switch; eso reside en la NIC y en el scheduler. OcNOS-DC implementa todos los mecanismos de fabric que requiere una carga de trabajo de IA en 2026 —RoCEv2 lossless, DCQCN con valores por defecto validados con xCCL, DLB sub-ms, GLB (OcNOS 7.1), watchdog de deadlock PFC, alineamiento con UEC 1.0— y se mantiene al margen de las capas superiores. «AI-aware fabric» normalmente solo significa que un único proveedor vende NIC + switch + scheduler como una SKU cerrada.
¿Dónde termina OcNOS-DC y dónde toman el relevo la NIC y el scheduler del clúster?
OcNOS-DC se ocupa de la capa 1: transporte RDMA lossless, control de congestión, enrutamiento adaptativo, recuperación de deadlocks y telemetría. La NIC se ocupa de la capa 2 (xCCL, RDMA verbs, packet spray, memoria GPU-direct); el scheduler se ocupa de la capa 3 (asignación de jobs, ventanas de gradient sync, aislamiento de tenants). OcNOS-DC transmite telemetría gNMI hacia la capa 3, pero nunca pretende sustituir al scheduler: esta separación mantiene intercambiables la NIC, la GPU y la orquestación.
¿Cómo se compara OcNOS AI Fabric con NVIDIA Spectrum-X, SONiC, Arista, Cisco o DriveNets?
Spectrum-X es un stack cerrado de NVIDIA compuesto por NIC, switch y software: prestaciones excelentes y lock-in con un único proveedor. Arista, Cisco y Juniper ofrecen funcionalidades RoCEv2 similares sobre hardware cerrado y con licencias propietarias. La comunidad SONiC es abierta, pero no entrega valores por defecto endurecidos para IA, ni watchdog ni SLA. DriveNets DDC es una cell fabric propietaria, no un NOS Ethernet. OcNOS-DC: NOS abierto sobre el mismo silicio Broadcom, alineado con UEC, DCQCN ajustado para xCCL y SLA 24/7: misma base técnica, sin lock-in.
¿Qué supone Ultra Ethernet (UEC) 1.0 para OcNOS AI Fabric?
UEC 1.0 incorpora packet spray, RDMA multi-path y entrega out-of-order sobre Ethernet: la respuesta abierta a InfiniBand. Las fabrics en producción operan hoy con RoCEv2 + DCQCN + DLB, todo plenamente soportado; UEC paraleliza cada flujo entre varias rutas en lugar de fijarlo a un único hash ECMP. OcNOS-DC sigue el perfil fabric UEC 1.0, de modo que el switch adquirido hoy pasa a NICs UEC sin cambiar el NOS ni el hardware. Véase el Análisis técnico de Ultra Ethernet.
¿Qué es RoCEv2 y por qué requiere un fabric Ethernet lossless?
RoCEv2 permite la transferencia directa de memoria GPU a GPU sin sobrecarga de CPU para colectivas como AllReduce y AllGather. RDMA no dispone de retransmisión: un único paquete descartado reinicia la operación en todas las GPU, por lo que una fabric lossless (PFC + ECN) es un requisito imprescindible en producción. OcNOS-DC entrega perfiles de buffer RoCEv2 y valores DCQCN por defecto alineados con los patrones de colectivas xCCL.
¿Cómo garantiza OcNOS-DC pérdida de paquetes cero y qué protege frente al deadlock PFC?
Tres mecanismos: PFC pausa el tráfico por prioridad antes de que los buffers se desborden; ECN marca los paquetes con antelación para ralentizar a los emisores; ETS mantiene los flujos RDMA por delante del tráfico de menor prioridad. Por encima, un watchdog de deadlock por puerto y por prioridad detecta ciclos de colas pausadas y vacía automáticamente la cola antes de que los jobs se bloqueen: el modo de fallo que antes obligaba a reiniciar el switch en plena ejecución. PFC sobre L3 está soportado a través de fronteras enrutadas.
¿Qué es DLB y qué cambia con GLB en OcNOS 7.1?
El ECMP estándar fija un flujo a un único uplink durante toda su vida, lo que provoca colisiones de elephant flows durante AllReduce. DLB utiliza telemetría en vivo de profundidad de cola del ASIC para redirigir los flowlets a rutas menos cargadas en menos de un milisegundo, cerrando la brecha en el hop local. GLB (OcNOS 7.1) extiende este principio de extremo a extremo: los spines publican telemetría de calidad de ruta hacia los leaves de ingreso, de modo que el enrutamiento se basa en la puntuación multi-hop completa y escala con limpieza hasta clústeres de 16k GPU.
¿Qué escala soporta OcNOS AI Fabric y cuáles son los reference designs validados?
OcNOS-DC soporta fabrics leaf-spine a 400G y 800G. Tomahawk 5 los spines (Edgecore AIS800-64D, UfiSpace S9321-64E) entregan 51,2 Tbps / 64 × 800G; Tomahawk 4 los leaves operan a 400G / 25,6 Tbps con buffer HBM profundo; Trident 4 cubre fabrics más pequeñas de 100G/400G. Los reference designs cubren topologías rail-only, rail-optimized y Clos de 3 etapas hasta 16k GPU; véase la Análisis técnico de topologías AI fabric.
¿OcNOS-DC soporta automatización y telemetría para operaciones de fabric de IA?
Sí. DCBX automatiza la configuración RoCEv2 entre servidor y switch, ZTP (IPv4/IPv6) se encarga del onboarding zero-touch y gNMI transmite telemetría on-change sobre OpenConfig YANG. Las pausas PFC, el marcado ECN, los umbrales DCQCN y las profundidades de buffer están expuestos como sensor paths gNMI consumibles desde Prometheus, InfluxDB, Telegraf, Grafana o cualquier pipeline OpenTelemetry. Los playbooks de Ansible y un proveedor de Terraform cubren del Day-0 al Day-2.