PFC Deadlock Detection & Recovery

La pausa PFC es lo que hace que RoCEv2 sea sin pérdidas, pero bajo condiciones poco frecuentes de topología y enrutamiento puede crear una dependencia circular en la que cada switch queda en pausa esperando al siguiente del ciclo, y el tráfico se detiene de forma indefinida. OcNOS-DC incorpora un watchdog que detecta el ciclo en milisegundos y drena la cola afectada automáticamente, antes de que los trabajos de entrenamiento se bloqueen.

Un ciclo de pausa de 3 switches

Tres switches en una dependencia circular. Cada uno está en pausa en su cola de prioridad sin pérdidas, esperando a que el siguiente switch se drene. Sin intervención, el ciclo es estable indefinidamente. El watchdog de OcNOS se dispara tras el tiempo de espera configurado, drena la cola-3 en el switch-A y el ciclo colapsa.

Ciclo de bloqueo de PFC y recuperación por watchdog Tres switches dispuestos en triángulo. Las flechas de pausa apuntan en sentido horario de cada switch al siguiente, indicando que cada switch está en pausa esperando al switch descendente. Un icono de watchdog en el switch A muestra el temporizador de bloqueo de OcNOS disparándose para drenar la cola y romper el ciclo. Pausa PFC (CoS 3) pausa PFC pausa PFC WD el watchdog se activa drenar la cola 3 Switch-Aen pausa hasta el Q3a la espera de B Switch-Ben pausa hasta el Q3a la espera de C Switch-Cen pausa hasta el Q3a la espera de A PFC DEADLOCK · WATCHDOG TIMEOUT · DRENAJE DE COLAS · AUTORRECUPERACIÓN

Cómo PFC crea un interbloqueo

PFC es una pausa salto a salto: el switch-A activa la pausa hacia su nodo ascendente cuando su cola de ingreso sin pérdidas se llena más allá del umbral, y el nodo ascendente deja de enviar. Esto funciona bien en una topología de árbol donde hay una única dirección de flujo de tráfico. En un fabric leaf-spine con múltiples rutas, el reencaminamiento ECMP alrededor de una falla de enlace puede, bajo condiciones específicas, crear una ruta circular en la que cada switch está en pausa esperando al siguiente.

Una vez que se forma el ciclo, es estable: hay suficiente memoria para retener las tramas en pausa, el protocolo de enrutamiento cree que todo está bien, y PFC sigue reactivándose en cada switch. Sin intervención, la prioridad sin pérdidas afectada queda colgada indefinidamente. El tráfico RoCEv2 se detiene, los colectivos xCCL (NCCL / RCCL / oneCCL) sufren timeout, el job de entrenamiento se estanca.

El watchdog de OcNOS-DC

Detection

Temporizador por puerto y por prioridad

Un temporizador se ejecuta por puerto de ingreso y por prioridad sin pérdidas. Si la prioridad se pausa de forma continua durante el intervalo configurado (normalmente 100–400 ms), el watchdog se activa.

Recovery

Drenaje automático de colas

Cuando se dispara, la cola de ingreso afectada se vacía: se descartan tramas temporalmente para colapsar el ciclo. Las tramas descartadas activan retransmisiones de los colectivos xCCL, pero la alternativa es un bloqueo indefinido.

Restoration

Restauración automática tras la recuperación

Tras el intervalo de restauración configurado, la operación normal de PFC se reanuda en la prioridad afectada. No se requiere intervención del operador; la fabric vuelve a estar sin pérdidas en segundos.

Telemetría

contadores gNMI

Los eventos de disparo del watchdog, las duraciones de drenaje y los contadores de pausa por prioridad se transmiten por gNMI para una monitorización de fabric en lazo cerrado. Los SREs ven los eventos de deadlock como alertas, no como paradas de entrenamiento silenciosas.

Tunable

Temporizadores configurables por el operador

El timeout de detección, la duración del drenaje y el intervalo de restauración son configurables por CLI por puerto y por prioridad. Los valores predeterminados funcionan para la mayoría de los fabrics; el operador puede acortar los temporizadores en clústeres de alto riesgo.

Scope

Nivel de licencia DC-PLUS

Forma parte del SKU OcNOS-DC PLUS junto con el resto del stack RoCEv2 sin pérdidas. Confirmado en plataformas Broadcom Tomahawk 4 y Tomahawk 5.

Cuándo verá esto activarse

En una fabric bien diseñada con topología y enrutamiento adecuados, los deadlocks de PFC son poco frecuentes. La mayoría de los operadores nunca ven uno en años de operación. El watchdog importa porque "raro" no significa "nunca": un fallo de enlace durante una ventana de convergencia de enrutamiento, una configuración incorrecta de las prioridades de PFC en un único puerto o un evento de congestión transitoria en un patrón de tráfico inusual pueden, todos ellos, crear las condiciones. Sin el watchdog, cuando se dispara, el clúster de IA se detiene y el equipo de operaciones tiene por delante horas de depuración. Con el watchdog, obtiene una breve ráfaga de retransmisión y un evento registrado.

La conclusión

  • Red de seguridad sin pérdidas. El watchdog es la diferencia entre "PFC es teóricamente riesgoso en fabrics de IA en producción" y "PFC es seguro de desplegar a escala."
  • Recuperación en menos de un segundo. Detección + vaciado + restauración se completa habitualmente en menos de un segundo. xCCL retransmite una pequeña ventana de tráfico RDMA; el job continúa.
  • Configuración estándar. El watchdog está activado de forma predeterminada en la plantilla sin pérdidas de OcNOS-DC. Usted no necesita acordarse de activarlo.
  • Observable. Cada incidente se registra, se contabiliza y se transmite mediante gNMI. Monitorización en lazo cerrado con su pila de observabilidad existente.
  • Ajustable según lo que esté en juego. Reduzca los temporizadores en los clústeres de entrenamiento críticos; los valores predeterminados están bien para un fabric de DC general.

¿Está validando el comportamiento sin pérdidas en una nueva fabric? Comience con el watchdog.

Solicite una demostración técnica →