DCQCN: Quantized Congestion Control for RDMA

DCQCN es el control de congestión en lazo cerrado que mantiene un fabric de IA RoCEv2 fuera de la pausa PFC y lejos de la pérdida de paquetes: el switch marca ECN de forma temprana, el receptor devuelve un CNP y el emisor cuantiza su tasa. OcNOS-DC incorpora valores predeterminados preajustados para cargas de trabajo colectivas xCCL (NCCL / RCCL / oneCCL) y expone cada umbral para fabrics que necesiten desviarse.

El lazo cerrado DCQCN

NIC emisora, switch congestionado, NIC receptora. Se activa el marcador WRED ECN del switch before la cola alcanza el umbral de pausa de PFC. El receptor genera un Congestion Notification Packet (CNP); el punto de reacción del emisor reduce la tasa y luego la incrementa de nuevo. Sin pérdidas, sin presión de PFC, convergencia rápida.

Control de congestión en lazo cerrado DCQCN Tres cajas de izquierda a derecha: NIC emisora (punto de reacción), switch congestionado con marcador WRED ECN, NIC receptora (punto de notificación). La flecha hacia adelante muestra un paquete que fluye de izquierda a derecha y que es marcado por el switch. La flecha inversa muestra el CNP viajando de derecha a izquierda de vuelta al emisor. Las etiquetas indican los umbrales ECN K-min, K-max y la ruta de retroalimentación del CNP. datos + con capacidad ECN ECN = CE (marcado) CNP: Paquete de notificación de congestión NIC emisoraPunto de reacciónα-update · cut · ramp Switch OcNOS-DCMarcador WRED ECNK-min · K-max · P-max NIC del receptorPunto de notificaciónCNP cada 50 µs DCQCN · MARCADO WRED · RETROALIMENTACIÓN CNP · LÍMITE DE TASA CUANTIZADO · RoCEv2 SIN PÉRDIDAS

La función que cumple DCQCN en un tejido de IA

RoCEv2 tiene dos formas de manejar la congestión: la pausa PFC (contrapresión que se propaga salto por salto) y DCQCN (un bucle de control de tasa de extremo a extremo). PFC por sí solo funciona, pero empuja la congestión aguas arriba y arriesga tormentas de pausa y bloqueo de cabecera de línea. DCQCN actúa antes que PFC, marcando los paquetes con ECN before la cola alcanza el umbral de pausa, de modo que el emisor reduce la velocidad antes de que el switch tenga siquiera que aplicar la pausa.

Bien hecho, pasará la mayor parte de la vida de su fabric solo con la retroalimentación de DCQCN, con PFC como red de seguridad de respaldo. Mal hecho, los umbrales de ECN están desalineados con el headroom de PFC y obtiene tormentas de pausa incluso con DCQCN configurado. El ajuste de umbrales lo es todo, y OcNOS-DC publica valores por defecto ajustados para tráfico colectivo xCCL, exponiendo cada parámetro para fabrics con patrones de tráfico específicos.

Los tres actores

  • Punto de reacción (NIC emisora). Recibe los CNP y ejecuta el bucle de DCQCN de actualización α / disminución multiplicativa / incremento aditivo para cuantizar su tasa de envío.
  • Punto de congestión (switch). Marca los paquetes con capacidad ECN para CE utilizando una curva WRED cuando la profundidad de la cola supera K-min, con la probabilidad de marcado aumentando linealmente hasta P-max en K-max.
  • Punto de notificación (NIC receptora). Genera un CNP de vuelta al emisor en cada flujo marcado, con límite de tasa (normalmente uno por cada 50 µs por flujo).

La implementación de DCQCN de OcNOS

Curva WRED

K-min, K-max, P-max

Marcado WRED ECN por cola de prioridad con umbrales K-min y K-max configurables y probabilidad de marcado P-max. Valores por defecto de clase xCCL listos para usar; expuestos como rutas YANG para ajuste.

Per-Priority

Independiente de PFC

El marcado de ECN se configura de forma independiente de los umbrales de pausa de PFC. La desalineación es el error de configuración de DCQCN más común. OcNOS valida la relación entre K-max, el headroom y las aserciones de pausa antes de aplicarla.

Compatible con VXLAN

ECN sobre VXLAN

Los bits ECN se preservan a través del encap/decap de VXLAN, de modo que DCQCN funciona de extremo a extremo sobre una superposición EVPN-VXLAN, y no solo sobre el underlay.

Telemetría

Contadores ECN por cola

Contadores transmitidos por gNMI de paquetes marcados con ECN por cola de salida, distribución de profundidad de cola y tasas de activación de CNP. Ajuste de lazo cerrado durante la puesta en marcha del clúster.

Diagnostics

Verifique antes de comprometerse

Verificación de coherencia por CLI de que K-min / K-max / margen de PFC son matemáticamente consistentes con el espacio de buffer asignado a la prioridad sin pérdidas. Falla rápido ante una configuración errónea.

Scope

Nivel de licencia DC-PLUS

Parte del SKU OcNOS-DC PLUS. La misma imagen, el mismo soporte; sin complementos por función para activar el stack RDMA sin pérdidas.

Por qué esto importa más de lo que parece

La mayoría de los casos de soporte de "RoCEv2 no se comporta bien" se reducen a un desajuste de umbrales de DCQCN. O bien ECN está configurado pero nunca marca (K-min demasiado alto) y PFC carga con toda la responsabilidad del control de congestión, o bien ECN marca con demasiada agresividad (K-min demasiado bajo) y los emisores reducen la tasa antes de que exista congestión real. OcNOS-DC se entrega con valores predeterminados que funcionan en la mayoría de los fabrics TH4 / TH5; para los fabrics que necesitan desviarse, cada parámetro está modelado en YANG y es verificable.

¿Ajustando DCQCN para una carga de trabajo real? Tráiganos sus trazas.

Solicite una demostración técnica →