DCQCN: Quantized Congestion Control for RDMA
DCQCN es el control de congestión en lazo cerrado que mantiene un fabric de IA RoCEv2 fuera de la pausa PFC y lejos de la pérdida de paquetes: el switch marca ECN de forma temprana, el receptor devuelve un CNP y el emisor cuantiza su tasa. OcNOS-DC incorpora valores predeterminados preajustados para cargas de trabajo colectivas xCCL (NCCL / RCCL / oneCCL) y expone cada umbral para fabrics que necesiten desviarse.
El lazo cerrado DCQCN
NIC emisora, switch congestionado, NIC receptora. Se activa el marcador WRED ECN del switch before la cola alcanza el umbral de pausa de PFC. El receptor genera un Congestion Notification Packet (CNP); el punto de reacción del emisor reduce la tasa y luego la incrementa de nuevo. Sin pérdidas, sin presión de PFC, convergencia rápida.
La función que cumple DCQCN en un tejido de IA
RoCEv2 tiene dos formas de manejar la congestión: la pausa PFC (contrapresión que se propaga salto por salto) y DCQCN (un bucle de control de tasa de extremo a extremo). PFC por sí solo funciona, pero empuja la congestión aguas arriba y arriesga tormentas de pausa y bloqueo de cabecera de línea. DCQCN actúa antes que PFC, marcando los paquetes con ECN before la cola alcanza el umbral de pausa, de modo que el emisor reduce la velocidad antes de que el switch tenga siquiera que aplicar la pausa.
Bien hecho, pasará la mayor parte de la vida de su fabric solo con la retroalimentación de DCQCN, con PFC como red de seguridad de respaldo. Mal hecho, los umbrales de ECN están desalineados con el headroom de PFC y obtiene tormentas de pausa incluso con DCQCN configurado. El ajuste de umbrales lo es todo, y OcNOS-DC publica valores por defecto ajustados para tráfico colectivo xCCL, exponiendo cada parámetro para fabrics con patrones de tráfico específicos.
Los tres actores
- Punto de reacción (NIC emisora). Recibe los CNP y ejecuta el bucle de DCQCN de actualización α / disminución multiplicativa / incremento aditivo para cuantizar su tasa de envío.
- Punto de congestión (switch). Marca los paquetes con capacidad ECN para
CEutilizando una curva WRED cuando la profundidad de la cola supera K-min, con la probabilidad de marcado aumentando linealmente hasta P-max en K-max. - Punto de notificación (NIC receptora). Genera un CNP de vuelta al emisor en cada flujo marcado, con límite de tasa (normalmente uno por cada 50 µs por flujo).
La implementación de DCQCN de OcNOS
K-min, K-max, P-max
Marcado WRED ECN por cola de prioridad con umbrales K-min y K-max configurables y probabilidad de marcado P-max. Valores por defecto de clase xCCL listos para usar; expuestos como rutas YANG para ajuste.
Independiente de PFC
El marcado de ECN se configura de forma independiente de los umbrales de pausa de PFC. La desalineación es el error de configuración de DCQCN más común. OcNOS valida la relación entre K-max, el headroom y las aserciones de pausa antes de aplicarla.
ECN sobre VXLAN
Los bits ECN se preservan a través del encap/decap de VXLAN, de modo que DCQCN funciona de extremo a extremo sobre una superposición EVPN-VXLAN, y no solo sobre el underlay.
Contadores ECN por cola
Contadores transmitidos por gNMI de paquetes marcados con ECN por cola de salida, distribución de profundidad de cola y tasas de activación de CNP. Ajuste de lazo cerrado durante la puesta en marcha del clúster.
Verifique antes de comprometerse
Verificación de coherencia por CLI de que K-min / K-max / margen de PFC son matemáticamente consistentes con el espacio de buffer asignado a la prioridad sin pérdidas. Falla rápido ante una configuración errónea.
Nivel de licencia DC-PLUS
Parte del SKU OcNOS-DC PLUS. La misma imagen, el mismo soporte; sin complementos por función para activar el stack RDMA sin pérdidas.
Por qué esto importa más de lo que parece
La mayoría de los casos de soporte de "RoCEv2 no se comporta bien" se reducen a un desajuste de umbrales de DCQCN. O bien ECN está configurado pero nunca marca (K-min demasiado alto) y PFC carga con toda la responsabilidad del control de congestión, o bien ECN marca con demasiada agresividad (K-min demasiado bajo) y los emisores reducen la tasa antes de que exista congestión real. OcNOS-DC se entrega con valores predeterminados que funcionan en la mayoría de los fabrics TH4 / TH5; para los fabrics que necesitan desviarse, cada parámetro está modelado en YANG y es verificable.