DCQCN : Quantized Congestion Control for RDMA

DCQCN est le contrôle de congestion en boucle fermée qui maintient une fabric IA RoCEv2 à l'écart de la pause PFC et de la perte de paquets : le switch marque l'ECN tôt, le récepteur renvoie un CNP, l'émetteur quantifie son débit. OcNOS-DC fournit des valeurs par défaut préréglées pour les charges de travail collectives xCCL (NCCL / RCCL / oneCCL) et expose chaque seuil pour les fabrics qui doivent s'en écarter.

La boucle fermée DCQCN

NIC émettrice, switch congestionné, NIC réceptrice. Le marqueur WRED ECN du switch se déclenche before la file d'attente atteint le seuil de pause PFC. Le récepteur génère un Congestion Notification Packet (CNP) ; le point de réaction de l'émetteur réduit le débit, puis remonte. Sans perte, sans pression PFC, convergence rapide.

Contrôle de congestion en boucle fermée DCQCN Trois boîtes de gauche à droite : NIC émetteur (point de réaction), switch congestionné avec marqueur WRED ECN, NIC récepteur (point de notification). La flèche aller montre un paquet circulant de gauche à droite et marqué par le switch. La flèche retour montre le CNP voyageant de droite à gauche jusqu'à l'émetteur. Les libellés indiquent les seuils ECN K-min, K-max et le chemin de retour du CNP. données + compatible ECN ECN = CE (marqué) CNP : Congestion Notification Packet NIC émetteurReaction Pointmise à jour α · cut · ramp Switch OcNOS-DCMarqueur WRED ECNK-min · K-max · P-max NIC réceptricePoint de notificationCNP toutes les 50 µs DCQCN · WRED MARKING · CNP FEEDBACK · QUANTIZED RATE LIMIT · LOSSLESS RoCEv2

Le rôle de DCQCN dans une fabric IA

RoCEv2 dispose de deux manières de gérer la congestion : la pause PFC (contre-pression qui se propage saut par saut) et DCQCN (une boucle de contrôle de débit de bout en bout). Le PFC seul fonctionne, mais il repousse la congestion en amont et risque de provoquer des tempêtes de pause et un blocage de tête de ligne. DCQCN agit en amont du PFC, en marquant les paquets avec ECN before la file d'attente atteint le seuil de pause, de sorte que l'émetteur ralentit avant même que le switch n'ait à imposer une pause.

Bien fait, vous passez l'essentiel de la vie de votre fabric sur le seul feedback DCQCN, le PFC servant de filet de sécurité. Mal fait, les seuils ECN sont désalignés avec le headroom PFC et vous obtenez des tempêtes de pause même avec DCQCN configuré. Le réglage des seuils est tout l'enjeu, et OcNOS-DC publie des paramètres par défaut réglés pour le trafic collectif xCCL, tout en exposant chaque paramètre pour les fabrics aux profils de trafic spécifiques.

Les trois acteurs

  • Reaction Point (carte réseau émettrice). Reçoit les CNP et exécute la boucle DCQCN de mise à jour α / décroissance multiplicative / accroissement additif pour quantifier son débit d'émission.
  • Point de congestion (switch). Marque les paquets compatibles ECN pour CE en utilisant une courbe WRED lorsque la profondeur de file dépasse K-min, avec une probabilité de marquage croissant linéairement jusqu'à P-max à K-max.
  • Notification Point (NIC récepteur). Génère un CNP vers l'émetteur sur chaque flux marqué, à débit limité (généralement un par 50 µs par flux).

L'implémentation DCQCN d'OcNOS

Courbe WRED

K-min, K-max, P-max

Marquage WRED ECN par file de priorité avec seuils K-min et K-max configurables et probabilité de marquage P-max. Paramètres par défaut de classe xCCL prêts à l'emploi ; exposés comme chemins YANG pour réglage.

Per-Priority

Indépendant de PFC

Le marquage ECN se configure indépendamment des seuils de pause PFC. Un désalignement est l'erreur de configuration DCQCN la plus courante. OcNOS valide la relation entre K-max, le headroom et les déclenchements de pause avant d'appliquer la configuration.

Compatible VXLAN

ECN sur VXLAN

Les bits ECN sont préservés à travers l'encapsulation/décapsulation VXLAN, de sorte que DCQCN fonctionne de bout en bout sur un overlay EVPN-VXLAN, et pas seulement sur l'underlay.

Télémétrie

Compteurs ECN par file d'attente

Compteurs diffusés via gNMI pour les paquets marqués ECN par file d'attente de sortie, distribution de la profondeur des files, et taux de déclenchement des CNP. Réglage en boucle fermée pendant la mise en service du cluster.

Diagnostics

Vérifiez avant de vous engager

Vérification de cohérence en CLI que K-min / K-max / la marge PFC sont mathématiquement cohérents avec l'espace de buffer alloué à la priorité lossless. Échec rapide en cas de mauvaise configuration.

Scope

Niveau de licence DC-PLUS

Fait partie du SKU OcNOS-DC PLUS. Même image, même support ; aucun module complémentaire par fonctionnalité requis pour activer la pile RDMA sans perte.

Pourquoi cela compte plus qu'il n'y paraît

La plupart des cas de support « RoCEv2 ne se comporte pas correctement » se ramènent à un mauvais alignement des seuils DCQCN. Soit ECN est configuré mais ne marque jamais (K-min trop élevé) et le PFC supporte alors toute la charge du contrôle de congestion, soit ECN marque de façon trop agressive (K-min trop bas) et les émetteurs réduisent leur débit avant toute congestion réelle. OcNOS-DC est livré avec des valeurs par défaut qui fonctionnent sur la plupart des fabrics TH4 / TH5 ; pour les fabrics qui doivent s'en écarter, chaque paramètre est modélisé en YANG et vérifiable.

Vous optimisez DCQCN pour une charge de travail réelle ? Apportez-nous vos traces.

Demander une démo technique →