RoCEv2: Ethernet sin pérdidas para fabrics de IA
RDMA over Converged Ethernet v2 es lo que transporta el tráfico colectivo de las GPU a través de las redes AI modernas. OcNOS implementa el conjunto completo de herramientas RoCEv2 (PFC, ECN/DCQCN, balanceo de carga adaptativo y telemetría por prioridad) sobre hardware abierto validado de 400G y 800G.
Topología de rieles de AI Fabric
Un segmento compacto de rail: dos spines y dos leaves que transportan RoCEv2 entre cuatro GPU. Las tramas de pausa PFC viajan salto a salto ante la congestión, mientras que ECN marca los flujos elefante para la reacción DCQCN en el origen.
Por qué RoCEv2 es importante para los AI/ML fabrics
Las colectivas de GPU (all-reduce, all-gather, all-to-all) generan flujos elefante que saturan rutas individuales del fabric y exigen una pérdida casi nula para mantener la eficiencia de los trabajos de entrenamiento. Si se descarta un solo paquete en un enlace 400G RoCEv2, la NIC afectada retransmitirá toda la ventana de envío RDMA, lo que se traduce en segundos medibles de tiempo de inactividad de la GPU. RoCEv2 convierte un fabric leaf-spine en un transporte sin pérdidas para estas cargas de trabajo, con tres pilares: PFC (Priority Flow Control), ECN (Explicit Congestion Notification) y DCQCN (Data Center Quantized Congestion Notification).
La implementación de RoCEv2 de OcNOS
Pausa por prioridad
802.1Qbb PFC en colas de prioridad configurables, junto con temporizadores watchdog para detectar condiciones de bloqueo mutuo y recuperarse automáticamente antes de que se propaguen.
Marcado adaptativo
Marcado ECN basado en WRED por cola con retroalimentación reaction-point DCQCN. Valores por defecto ajustados para workloads colectivos xCCL (NCCL / RCCL / oneCCL); sobrescritura paramétrica para pilas RDMA personalizadas.
Flowlet adaptativo
El Dynamic Load Balancing (DLB) reasigna flowlets ante la saturación de enlaces en intervalos de submilisegundos. Elimina las colisiones de hashing estático que perjudican a las topologías simétricas.
Estadísticas de cola por prioridad
Sensores de transmisión gNMI para la profundidad de cola, los contadores de pausa PFC, los paquetes marcados con ECN y la detección de microrráfagas, exportados con granularidad de 1 segundo.
Tejidos optimizados para rieles
Validado para topologías rail-aligned y de scheduled-fabric. Recetas para clústeres de 256 a 4,096 GPU usando switches abiertos comerciales de 400G y 800G.
Verificación sin pérdidas
Diagnósticos de CLI para verificar de extremo a extremo una configuración sin pérdidas reconocida como buena: cálculo del headroom de PFC, validación del umbral de ECN y una prueba sintética de incast.
Lo que obtiene con OcNOS
- Elección de hardware abierto. Ejecute RoCEv2 en plataformas UfiSpace, Edgecore, Wedge o Celestica con la misma imagen de NOS: sin bloqueo propietario para la capa de fabric.
- Paridad de funciones desde el primer día. El LB adaptativo, el ajuste de DCQCN y la telemetría nativa del ASIC no son complementos de pago. Forman parte de la licencia base de OcNOS-DC.
- Diseños de referencia. Configuraciones validadas para las topologías de fabric de IA más populares; publicamos las configuraciones y los resultados de las pruebas.
- Acceso de ingeniería. El nivel de soporte premium incluye diálogo directo con el equipo de OcNOS RoCEv2 durante la puesta en marcha del fabric.
¿Está construyendo o escalando un AI fabric? Hable con un arquitecto de red.
Solicite una demostración técnica →RoCEv2 references & further reading
- Estándar IEEE 802.1Qbb: Priority-based Flow Control (PFC)
- Estándar IEEE 802.1Qau: Congestion Notification (QCN)
- Estándar RFC 3168: Incorporación de la Notificación Explícita de Congestión (ECN) a IP
- Whitepaper NVIDIA: RoCE in the Data Center (whitepaper)
- Documento del proveedor Adaptadores de red Ethernet de Broadcom (familia de NIC con capacidad RoCE)