DCQCN : Quantized Congestion Control for RDMA
DCQCN est le contrôle de congestion en boucle fermée qui maintient une fabric IA RoCEv2 à l'écart de la pause PFC et de la perte de paquets : le switch marque l'ECN tôt, le récepteur renvoie un CNP, l'émetteur quantifie son débit. OcNOS-DC fournit des valeurs par défaut préréglées pour les charges de travail collectives xCCL (NCCL / RCCL / oneCCL) et expose chaque seuil pour les fabrics qui doivent s'en écarter.
La boucle fermée DCQCN
NIC émettrice, switch congestionné, NIC réceptrice. Le marqueur WRED ECN du switch se déclenche before la file d'attente atteint le seuil de pause PFC. Le récepteur génère un Congestion Notification Packet (CNP) ; le point de réaction de l'émetteur réduit le débit, puis remonte. Sans perte, sans pression PFC, convergence rapide.
Le rôle de DCQCN dans une fabric IA
RoCEv2 dispose de deux manières de gérer la congestion : la pause PFC (contre-pression qui se propage saut par saut) et DCQCN (une boucle de contrôle de débit de bout en bout). Le PFC seul fonctionne, mais il repousse la congestion en amont et risque de provoquer des tempêtes de pause et un blocage de tête de ligne. DCQCN agit en amont du PFC, en marquant les paquets avec ECN before la file d'attente atteint le seuil de pause, de sorte que l'émetteur ralentit avant même que le switch n'ait à imposer une pause.
Bien fait, vous passez l'essentiel de la vie de votre fabric sur le seul feedback DCQCN, le PFC servant de filet de sécurité. Mal fait, les seuils ECN sont désalignés avec le headroom PFC et vous obtenez des tempêtes de pause même avec DCQCN configuré. Le réglage des seuils est tout l'enjeu, et OcNOS-DC publie des paramètres par défaut réglés pour le trafic collectif xCCL, tout en exposant chaque paramètre pour les fabrics aux profils de trafic spécifiques.
Les trois acteurs
- Reaction Point (carte réseau émettrice). Reçoit les CNP et exécute la boucle DCQCN de mise à jour α / décroissance multiplicative / accroissement additif pour quantifier son débit d'émission.
- Point de congestion (switch). Marque les paquets compatibles ECN pour
CEen utilisant une courbe WRED lorsque la profondeur de file dépasse K-min, avec une probabilité de marquage croissant linéairement jusqu'à P-max à K-max. - Notification Point (NIC récepteur). Génère un CNP vers l'émetteur sur chaque flux marqué, à débit limité (généralement un par 50 µs par flux).
L'implémentation DCQCN d'OcNOS
K-min, K-max, P-max
Marquage WRED ECN par file de priorité avec seuils K-min et K-max configurables et probabilité de marquage P-max. Paramètres par défaut de classe xCCL prêts à l'emploi ; exposés comme chemins YANG pour réglage.
Indépendant de PFC
Le marquage ECN se configure indépendamment des seuils de pause PFC. Un désalignement est l'erreur de configuration DCQCN la plus courante. OcNOS valide la relation entre K-max, le headroom et les déclenchements de pause avant d'appliquer la configuration.
ECN sur VXLAN
Les bits ECN sont préservés à travers l'encapsulation/décapsulation VXLAN, de sorte que DCQCN fonctionne de bout en bout sur un overlay EVPN-VXLAN, et pas seulement sur l'underlay.
Compteurs ECN par file d'attente
Compteurs diffusés via gNMI pour les paquets marqués ECN par file d'attente de sortie, distribution de la profondeur des files, et taux de déclenchement des CNP. Réglage en boucle fermée pendant la mise en service du cluster.
Vérifiez avant de vous engager
Vérification de cohérence en CLI que K-min / K-max / la marge PFC sont mathématiquement cohérents avec l'espace de buffer alloué à la priorité lossless. Échec rapide en cas de mauvaise configuration.
Niveau de licence DC-PLUS
Fait partie du SKU OcNOS-DC PLUS. Même image, même support ; aucun module complémentaire par fonctionnalité requis pour activer la pile RDMA sans perte.
Pourquoi cela compte plus qu'il n'y paraît
La plupart des cas de support « RoCEv2 ne se comporte pas correctement » se ramènent à un mauvais alignement des seuils DCQCN. Soit ECN est configuré mais ne marque jamais (K-min trop élevé) et le PFC supporte alors toute la charge du contrôle de congestion, soit ECN marque de façon trop agressive (K-min trop bas) et les émetteurs réduisent leur débit avant toute congestion réelle. OcNOS-DC est livré avec des valeurs par défaut qui fonctionnent sur la plupart des fabrics TH4 / TH5 ; pour les fabrics qui doivent s'en écarter, chaque paramètre est modélisé en YANG et vérifiable.