PFC : détection et récupération de deadlock

La pause PFC est ce qui rend RoCEv2 sans perte, mais dans de rares conditions de topologie et de routage elle peut créer une dépendance circulaire où chaque switch est en pause à attendre le suivant dans un cycle, et le trafic s'arrête indéfiniment. OcNOS-DC intègre un watchdog qui détecte le cycle en quelques millisecondes et vide automatiquement la file affectée, avant que les tâches d'entraînement ne se figent.

Un cycle de pause à 3 switchs

Trois switches en dépendance circulaire. Chacun est mis en pause sur sa file prioritaire sans perte, en attente que le switch suivant se vide. Sans intervention, le cycle est stable indéfiniment. Le watchdog d'OcNOS se déclenche après le délai configuré, vide la queue-3 sur le switch-A, et le cycle s'effondre.

Comment PFC crée un blocage

Le PFC est une pause hop-by-hop : le switch-A déclenche une pause vers son équipement amont lorsque sa file d'attente d'ingress sans perte se remplit au-delà du seuil, et l'amont cesse d'émettre. Cela fonctionne très bien sur une topologie en arbre où il existe une seule direction de flux de trafic. Sur une fabric leaf-spine à chemins multiples, le réacheminement ECMP autour d'une défaillance de liaison peut, dans des conditions spécifiques, créer un chemin circulaire où chaque switch est en pause dans l'attente du suivant.

Une fois le cycle formé, il est stable : il y a assez de mémoire pour contenir les trames en pause, le protocole de routage estime que tout va bien, et PFC continue de se réaffirmer sur chaque switch. Sans intervention, la priorité lossless affectée reste bloquée indéfiniment. Le trafic RoCEv2 s'arrête, les opérations collectives xCCL (NCCL / RCCL / oneCCL) expirent, la tâche d'entraînement se bloque.

Le watchdog OcNOS-DC

Detection

Temporisateur par port et par priorité

A timer runs per ingress port and per lossless priority. If the priority is paused continuously for the configured interval (typically 100-400 ms), the watchdog fires.

Recovery

Vidage automatique des files d'attente

Lors d'un déclenchement, la file d'entrée concernée est drainée : des trames sont brièvement abandonnées pour rompre le cycle. Les trames perdues déclenchent une retransmission par les opérations collectives xCCL, mais l'alternative est un blocage indéfini.

Restoration

Restauration automatique après rétablissement

Après l'intervalle de restauration configuré, le fonctionnement PFC normal reprend sur la priorité concernée. Aucune intervention d'opérateur requise ; le fabric redevient lossless en quelques secondes.

Télémétrie

compteurs gNMI

Les événements de déclenchement du watchdog, les durées de drain et les compteurs de pause par priorité sont diffusés via gNMI pour une supervision en boucle fermée de la fabric. Les SRE voient les événements de deadlock comme des alertes, et non comme des blocages silencieux de l'entraînement.

Tunable

Temporisateurs configurables par l'opérateur

Le délai de détection, la durée de drain et l'intervalle de restauration sont configurables en CLI par port et par priorité. Les valeurs par défaut conviennent à la plupart des fabrics ; l'opérateur peut raccourcir les minuteries sur les clusters à fort enjeu.

Scope

Niveau de licence DC-PLUS

Fait partie de la SKU OcNOS-DC PLUS aux côtés du reste de la pile RoCEv2 sans perte. Confirmé sur les plateformes Broadcom Tomahawk 4 et Tomahawk 5.

Quand vous verrez ce déclenchement

Dans un fabric bien conçu avec une topologie et un routage appropriés, les deadlocks PFC sont rares. La plupart des opérateurs n'en voient jamais en des années d'exploitation. Le watchdog importe parce que « rare » ne veut pas dire « jamais »: une défaillance de liaison pendant une fenêtre de convergence du routage, une mauvaise configuration des priorités PFC sur un seul port ou un événement de congestion transitoire sur un profil de trafic inhabituel peuvent tous réunir les conditions. Sans le watchdog, lorsqu'il se déclenche, le cluster IA s'arrête et l'équipe d'exploitation doit affronter des heures de débogage. Avec le watchdog, vous n'obtenez qu'une brève rafale de retransmission et un événement journalisé. Pour concevoir la topologie et les niveaux de commutation qui rendent les interblocages rares dès le départ, utilisez le Outil de dimensionnement d'AI Fabric.

L'essentiel

Filet de sécurité sans perte. Le watchdog fait toute la différence entre « PFC est théoriquement risqué sur les fabrics IA de production » et « PFC peut être déployé en toute sécurité à grande échelle ».
Reprise en moins d'une seconde. Détection + drain + restauration s'achèvent généralement en moins d'une seconde. xCCL retransmet une petite fenêtre de trafic RDMA ; la tâche se poursuit.
Configuration standard. Le watchdog est activé par défaut dans le modèle lossless d'OcNOS-DC. Vous n'avez pas besoin de penser à l'activer.
Observable. Chaque incident est journalisé, comptabilisé et diffusé via gNMI. Une surveillance en boucle fermée avec votre stack d'observabilité existant.
Ajustable selon les enjeux. Abaissez les timers sur les clusters d'entraînement critiques ; les valeurs par défaut conviennent à une fabric DC générale.

Vous validez le comportement lossless sur une nouvelle fabric ? Commencez par le watchdog.

Demander une démo technique →

FAQ

Questions fréquentes

Quelles sont les causes d'un blocage PFC ?

Le PFC est une pause hop-by-hop. Sur une fabric multi-chemin, le reroutage ECMP contournant une défaillance de lien peut, dans certaines conditions, créer un chemin circulaire où chaque commutateur est en pause dans l'attente du suivant. Le cycle est stable et la priorité lossless reste bloquée jusqu'à ce qu'un événement le rompe.

Comment le watchdog PFC d'OcNOS rétablit-il la fabric ?

Un temporisateur par port et par priorité se déclenche si une priorité lossless reste en pause pendant l'intervalle configuré (généralement 100 à 400 ms). Le watchdog vide la file concernée pour rompre le cycle, puis rétablit un PFC normal après l'intervalle de restauration, sans intervention de l'opérateur.

Le watchdog abandonne-t-il du trafic ?

Oui, brièvement. Le vidage de la file supprime une petite fenêtre de trames, ce qui déclenche des retransmissions collectives xCCL. L'alternative étant un blocage indéfini, le compromis se résume à une rafale de retransmission inférieure à une seconde face à une tâche d'entraînement figée.

Le watchdog anti-deadlock PFC est-il activé par défaut ?

Oui. Le watchdog est activé par défaut dans le modèle lossless d'OcNOS-DC, avec des minuteurs de détection, de vidange et de restauration ajustables par la CLI. Il fait partie de la SKU OcNOS-DC PLUS sur les plateformes Broadcom Tomahawk 4 et 5.

Fiche technique et notes de solution

Approfondissez. Emportez-le avec vous.

La fiche technique du produit et des téléchargements techniques et concis qui vont plus loin que cette page.

Fiche technique

Datasheet OcNOS-DC

Spécification complète OcNOS-DC : l'ensemble des fonctionnalités EVPN-VXLAN et Ethernet for AI, les SKU logiciels, les plateformes matérielles prises en charge et le guide de commande de la solution.

Obtenir la fiche technique

Solution brief

OcNOS 800G Fabric IA sans perte

Fabric RoCEv2 non bloquante sur des spines Broadcom Tomahawk 4/5 : niveaux de SKU, plateformes validées et architecture de déploiement.

Obtenir le brief

Solution brief

Fabric DC EVPN-VXLAN

Fabric de data center leaf-spine de niveau opérateur : IRB symétrique, routes Type-2/Type-5 et passerelle anycast distribuée.

Obtenir le brief

Fabric IA

Design the whole AI fabric with OcNOS

From the business case to the port-count maths, pick up wherever you are in the build.

Solution Open AI Fabric The complete 800G AI fabric: open switches, OcNOS-DC, and support under one contract. Reference designs Topologies AI Fabric Rail-optimized, scheduled 3-stage Clos, and coherent DCI, sized in real port counts. Size & build AI Fabric Design Suite Size a GPU fabric: leaf, spine, and super-spine counts with a component and power summary.

Nouveau dans les AI fabrics ? Commencez ici Qu'est-ce qu'un AI fabric ? Qu'est-ce qu'un GPU fabric ? Qu'est-ce que l'Ethernet sans perte ? Qu'est-ce que RDMA ?

The technology inside RoCEv2 lossless Rail-optimized network DLB adaptive routing GLB (7.1) Ultra Ethernet DCQCN blocage PFC InfiniBand contre Ethernet RoCE vs InfiniBand AI fabric architecture Coherent DCI

Solutions

Produits

Partenaires

Ressources

Entreprise

Réseaux opérateurs

Transport mobile 5G

Agrégation haut débit

Metro Ethernet et agrégation

Cœur IP et peering

IP sur DWDM (optique routée)