RoCEv2 : Ethernet sans perte pour les fabrics IA
RDMA over Converged Ethernet v2 est ce qui transporte le trafic collectif des GPU à travers les fabrics IA modernes. OcNOS implémente la boîte à outils RoCEv2 complète (PFC, ECN/DCQCN, équilibrage de charge adaptatif et télémétrie par priorité) sur du matériel ouvert 400G et 800G validé.
Topologie rail de fabric IA
Une tranche de rail compacte : deux spines et deux leaves transportant du RoCEv2 entre quatre GPU. Les trames PFC pause circulent saut par saut en cas de congestion, tandis qu'ECN marque les flux éléphants pour déclencher la réaction DCQCN à la source.
Pourquoi RoCEv2 est important pour les fabrics IA/ML
Les collectifs GPU (all-reduce, all-gather, all-to-all) génèrent flux éléphants qui saturent les chemins de fabric individuels et exigent une perte quasi nulle pour maintenir l'efficacité des jobs d'entraînement. Perdez un seul paquet sur un lien 400G RoCEv2 et la NIC concernée retransmettra l'intégralité de la fenêtre d'envoi RDMA, mesurable en secondes de temps d'inactivité GPU. RoCEv2 transforme une fabric leaf-spine en un transport sans perte pour ces charges de travail, reposant sur trois piliers : PFC (Priority Flow Control), ECN (Explicit Congestion Notification) et DCQCN (Data Center Quantized Congestion Notification).
L'implémentation RoCEv2 d'OcNOS
Pause par priorité
PFC 802.1Qbb sur des files de priorité configurables, associé à des watchdog timers pour détecter les conditions de deadlock et se rétablir automatiquement avant qu'elles ne se propagent.
Marquage adaptatif
Marquage ECN basé sur WRED par file, avec retour reaction-point DCQCN. Paramètres par défaut réglés pour les workloads collectifs xCCL (NCCL / RCCL / oneCCL) ; surcharge paramétrique pour les piles RDMA personnalisées.
Flowlet adaptatif
Le Dynamic Load Balancing (DLB) redistribue les flowlets lors de la saturation d'un lien à des intervalles inférieurs à la milliseconde. Élimine les collisions de hachage statique qui nuisent aux topologies symétriques.
Statistiques de file par priorité
Capteurs de streaming gNMI pour la profondeur des files, les compteurs de pause PFC, les paquets marqués ECN et la détection des microbursts, exportés avec une granularité d'une seconde.
Fabrics optimisées pour les rails
Validé pour les topologies rail-aligned et scheduled-fabric. Recettes pour des clusters de 256 à 4 096 GPU utilisant des commutateurs ouverts 400G et 800G sur étagère.
Vérification sans perte
Diagnostics CLI pour vérifier de bout en bout une configuration sans perte reconnue comme correcte : calcul du headroom PFC, contrôle de cohérence du seuil ECN et test d'incast synthétique.
Ce que vous apporte OcNOS
- Choix matériel ouvert. Exécutez RoCEv2 sur des plateformes UfiSpace, Edgecore, Wedge ou Celestica avec la même image NOS : aucun verrouillage fournisseur pour la couche fabric.
- Parité fonctionnelle dès le premier jour. L'équilibrage de charge adaptatif, le réglage DCQCN et la télémétrie native ASIC ne sont pas des options payantes. Ils font partie de la licence OcNOS-DC de base.
- Reference designs. Configurations validées pour les topologies de fabric IA répandues : nous publions les configurations et les résultats des tests.
- Accès d'ingénierie. Le niveau de support premium inclut un dialogue direct avec l'équipe OcNOS RoCEv2 lors de la mise en service de la fabric.
Vous construisez ou faites évoluer une fabric IA ? Parlez à un architecte réseau.
Demander une démo technique →RoCEv2 references & further reading
- Standard IEEE 802.1Qbb : Priority-based Flow Control (PFC)
- Standard IEEE 802.1Qau : Congestion Notification (QCN)
- Standard RFC 3168 : Addition of Explicit Congestion Notification (ECN) to IP
- Whitepaper NVIDIA : RoCE in the Data Center (livre blanc)
- Doc fournisseur Adaptateurs réseau Ethernet Broadcom (famille de NIC compatibles RoCE)