PFC Deadlock Detection & Recovery
La pausa PFC es lo que hace que RoCEv2 sea sin pérdidas, pero bajo condiciones poco frecuentes de topología y enrutamiento puede crear una dependencia circular en la que cada switch queda en pausa esperando al siguiente del ciclo, y el tráfico se detiene de forma indefinida. OcNOS-DC incorpora un watchdog que detecta el ciclo en milisegundos y drena la cola afectada automáticamente, antes de que los trabajos de entrenamiento se bloqueen.
Un ciclo de pausa de 3 switches
Tres switches en una dependencia circular. Cada uno está en pausa en su cola de prioridad sin pérdidas, esperando a que el siguiente switch se drene. Sin intervención, el ciclo es estable indefinidamente. El watchdog de OcNOS se dispara tras el tiempo de espera configurado, drena la cola-3 en el switch-A y el ciclo colapsa.
Cómo PFC crea un interbloqueo
PFC es una pausa salto a salto: el switch-A activa la pausa hacia su nodo ascendente cuando su cola de ingreso sin pérdidas se llena más allá del umbral, y el nodo ascendente deja de enviar. Esto funciona bien en una topología de árbol donde hay una única dirección de flujo de tráfico. En un fabric leaf-spine con múltiples rutas, el reencaminamiento ECMP alrededor de una falla de enlace puede, bajo condiciones específicas, crear una ruta circular en la que cada switch está en pausa esperando al siguiente.
Una vez que se forma el ciclo, es estable: hay suficiente memoria para retener las tramas en pausa, el protocolo de enrutamiento cree que todo está bien, y PFC sigue reactivándose en cada switch. Sin intervención, la prioridad sin pérdidas afectada queda colgada indefinidamente. El tráfico RoCEv2 se detiene, los colectivos xCCL (NCCL / RCCL / oneCCL) sufren timeout, el job de entrenamiento se estanca.
El watchdog de OcNOS-DC
Temporizador por puerto y por prioridad
Un temporizador se ejecuta por puerto de ingreso y por prioridad sin pérdidas. Si la prioridad se pausa de forma continua durante el intervalo configurado (normalmente 100–400 ms), el watchdog se activa.
Drenaje automático de colas
Cuando se dispara, la cola de ingreso afectada se vacía: se descartan tramas temporalmente para colapsar el ciclo. Las tramas descartadas activan retransmisiones de los colectivos xCCL, pero la alternativa es un bloqueo indefinido.
Restauración automática tras la recuperación
Tras el intervalo de restauración configurado, la operación normal de PFC se reanuda en la prioridad afectada. No se requiere intervención del operador; la fabric vuelve a estar sin pérdidas en segundos.
contadores gNMI
Los eventos de disparo del watchdog, las duraciones de drenaje y los contadores de pausa por prioridad se transmiten por gNMI para una monitorización de fabric en lazo cerrado. Los SREs ven los eventos de deadlock como alertas, no como paradas de entrenamiento silenciosas.
Temporizadores configurables por el operador
El timeout de detección, la duración del drenaje y el intervalo de restauración son configurables por CLI por puerto y por prioridad. Los valores predeterminados funcionan para la mayoría de los fabrics; el operador puede acortar los temporizadores en clústeres de alto riesgo.
Nivel de licencia DC-PLUS
Forma parte del SKU OcNOS-DC PLUS junto con el resto del stack RoCEv2 sin pérdidas. Confirmado en plataformas Broadcom Tomahawk 4 y Tomahawk 5.
Cuándo verá esto activarse
En una fabric bien diseñada con topología y enrutamiento adecuados, los deadlocks de PFC son poco frecuentes. La mayoría de los operadores nunca ven uno en años de operación. El watchdog importa porque "raro" no significa "nunca": un fallo de enlace durante una ventana de convergencia de enrutamiento, una configuración incorrecta de las prioridades de PFC en un único puerto o un evento de congestión transitoria en un patrón de tráfico inusual pueden, todos ellos, crear las condiciones. Sin el watchdog, cuando se dispara, el clúster de IA se detiene y el equipo de operaciones tiene por delante horas de depuración. Con el watchdog, obtiene una breve ráfaga de retransmisión y un evento registrado.
La conclusión
- Red de seguridad sin pérdidas. El watchdog es la diferencia entre "PFC es teóricamente riesgoso en fabrics de IA en producción" y "PFC es seguro de desplegar a escala."
- Recuperación en menos de un segundo. Detección + vaciado + restauración se completa habitualmente en menos de un segundo. xCCL retransmite una pequeña ventana de tráfico RDMA; el job continúa.
- Configuración estándar. El watchdog está activado de forma predeterminada en la plantilla sin pérdidas de OcNOS-DC. Usted no necesita acordarse de activarlo.
- Observable. Cada incidente se registra, se contabiliza y se transmite mediante gNMI. Monitorización en lazo cerrado con su pila de observabilidad existente.
- Ajustable según lo que esté en juego. Reduzca los temporizadores en los clústeres de entrenamiento críticos; los valores predeterminados están bien para un fabric de DC general.