RoCEv2: Ethernet sin pérdidas para fabrics de IA

RDMA over Converged Ethernet v2 es lo que transporta el tráfico colectivo de las GPU a través de las redes AI modernas. OcNOS implementa el conjunto completo de herramientas RoCEv2 (PFC, ECN/DCQCN, balanceo de carga adaptativo y telemetría por prioridad) sobre hardware abierto validado de 400G y 800G.

Topología de rieles de AI Fabric

Un segmento compacto de rail: dos spines y dos leaves que transportan RoCEv2 entre cuatro GPU. Las tramas de pausa PFC viajan salto a salto ante la congestión, mientras que ECN marca los flujos elefante para la reacción DCQCN en el origen.

Fabric de AI leaf-spine RoCEv2 con PFC y RDMA sin pérdidas Un fabric de IA de dos spines y dos leaves que transporta tráfico RDMA RoCEv2 sin pérdidas entre cuatro servidores GPU. Las flechas de pausa de PFC muestran el control de flujo basado en prioridades que protege las colas que transportan tráfico RDMA. Pausa PFC (CoS 3) Spine-1 ECN · WRED Spine-2 ECN · WRED Leaf-1 PFC · DCQCN Leaf-2 PFC · DCQCN GPU-0 GPU-1 GPU-2 GPU-3 PFC + ECN + DCQCN · ADAPTIVE LB · PER-PRIORITY TELEMETRY

Por qué RoCEv2 es importante para los AI/ML fabrics

Las colectivas de GPU (all-reduce, all-gather, all-to-all) generan flujos elefante que saturan rutas individuales del fabric y exigen una pérdida casi nula para mantener la eficiencia de los trabajos de entrenamiento. Si se descarta un solo paquete en un enlace 400G RoCEv2, la NIC afectada retransmitirá toda la ventana de envío RDMA, lo que se traduce en segundos medibles de tiempo de inactividad de la GPU. RoCEv2 convierte un fabric leaf-spine en un transporte sin pérdidas para estas cargas de trabajo, con tres pilares: PFC (Priority Flow Control), ECN (Explicit Congestion Notification) y DCQCN (Data Center Quantized Congestion Notification).

La implementación de RoCEv2 de OcNOS

PFC

Pausa por prioridad

802.1Qbb PFC en colas de prioridad configurables, junto con temporizadores watchdog para detectar condiciones de bloqueo mutuo y recuperarse automáticamente antes de que se propaguen.

ECN + DCQCN

Marcado adaptativo

Marcado ECN basado en WRED por cola con retroalimentación reaction-point DCQCN. Valores por defecto ajustados para workloads colectivos xCCL (NCCL / RCCL / oneCCL); sobrescritura paramétrica para pilas RDMA personalizadas.

Balanceo de carga

Flowlet adaptativo

El Dynamic Load Balancing (DLB) reasigna flowlets ante la saturación de enlaces en intervalos de submilisegundos. Elimina las colisiones de hashing estático que perjudican a las topologías simétricas.

Telemetría

Estadísticas de cola por prioridad

Sensores de transmisión gNMI para la profundidad de cola, los contadores de pausa PFC, los paquetes marcados con ECN y la detección de microrráfagas, exportados con granularidad de 1 segundo.

Topology

Tejidos optimizados para rieles

Validado para topologías rail-aligned y de scheduled-fabric. Recetas para clústeres de 256 a 4,096 GPU usando switches abiertos comerciales de 400G y 800G.

Diagnostics

Verificación sin pérdidas

Diagnósticos de CLI para verificar de extremo a extremo una configuración sin pérdidas reconocida como buena: cálculo del headroom de PFC, validación del umbral de ECN y una prueba sintética de incast.

Lo que obtiene con OcNOS

  • Elección de hardware abierto. Ejecute RoCEv2 en plataformas UfiSpace, Edgecore, Wedge o Celestica con la misma imagen de NOS: sin bloqueo propietario para la capa de fabric.
  • Paridad de funciones desde el primer día. El LB adaptativo, el ajuste de DCQCN y la telemetría nativa del ASIC no son complementos de pago. Forman parte de la licencia base de OcNOS-DC.
  • Diseños de referencia. Configuraciones validadas para las topologías de fabric de IA más populares; publicamos las configuraciones y los resultados de las pruebas.
  • Acceso de ingeniería. El nivel de soporte premium incluye diálogo directo con el equipo de OcNOS RoCEv2 durante la puesta en marcha del fabric.

¿Está construyendo o escalando un AI fabric? Hable con un arquitecto de red.

Solicite una demostración técnica →