Global Load Balancing : routage adaptatif à l'échelle de la fabric
DLB prend la bonne décision à un saut ; GLB prend la bonne décision à l'échelle de toute la fabric. Disponible dans OcNOS 7.1, le Global Load Balancing étend le routage adaptatif d'une vue par port à une qualité de chemin de bout en bout, comblant l'écart de points chauds multi-sauts sur les fabrics IA Clos à 3 étages jusqu'au plafond de 16k GPU.
Télémétrie de chemin de bout en bout
Une tranche de Clos à 3 étages (leaf, spine, super-spine) transportant de l'AllReduce GPU. Chaque niveau diffuse la télémétrie d'occupation des files et d'utilisation des liens vers les leaves d'ingress. GLB sélectionne le chemin présentant le meilleur end-to-end score, et non le meilleur score d'egress local.
Le problème du hot-spot multi-saut
DLB évalue chaque next-hop ECMP à l'aide de local profondeur de file d'attente en egress : ce qui se passe sur le port sortant de ce switch. C'est optimal sur un leaf-spine à 2 niveaux. Mais à l'échelle d'un Clos à 3 niveaux, vous pouvez choisir un spine avec un uplink propre, pour finalement aboutir sur un super-spine où son downlink vers la leaf de sortie est congestionnée. La vue locale est correcte ; la vue de bout en bout est erronée.
Sur les fabrics de 1 024 GPU et plus, la taille à laquelle un Clos à 3 étages avec super-spines devient la topologie standard, il s'agit de la principale source restante de valeurs aberrantes de tail-latency. OcNOS 7.1 introduit le Global Load Balancing pour le résoudre : chaque niveau publie une télémétrie de qualité de chemin en retour vers les leaves d'entrée, de sorte que la décision d'entrée repose sur un score end-to-end complet.
DLB vs GLB : portée de la décision de chemin
Routage adaptatif par saut
Chaque commutateur classe ses propres next-hops ECMP en fonction de la profondeur locale des files de sortie et du taux d'utilisation des liens. Excellent pour les fabrics à 2 étages et pour le saut leaf→spine dans les fabrics à 3 étages. Disponible dès aujourd'hui sur TH4 / TH5.
Évaluation de chemin de bout en bout
Chaque niveau publie la télémétrie de congestion vers les leaves d'ingress. L'ingress classe les chemins complets (leaf→spine→super-spine→spine→leaf) et sélectionne sur la base d'un score de qualité sur l'ensemble du fabric, et non du seul saut local.
L'implémentation GLB d'OcNOS 7.1
Publication de la qualité de chemin
Chaque spine et super-spine publie l'occupation des files d'attente par port et les deltas d'utilisation vers une adjacence à l'échelle de la fabric. Les mises à jour sont sous la milliseconde et utilisent la signalisation in-band existante, sans bavardage supplémentaire sur le control-plane.
Agrégation de bout en bout
Les leafs d'ingress combinent la qualité d'egress locale avec la télémétrie en aval pour calculer un score agrégé par chemin candidat. Le pire saut domine le score, la même intuition que celle des opérateurs lors du troubleshooting.
Flowlet-aligned
Comme DLB, GLB effectue une nouvelle liaison aux frontières de flowlet, préservant la livraison dans l'ordre pour RoCEv2 et TCP. La différence réside dans ce qui alimente la décision : la qualité de l'ensemble du fabric, et non celle d'un port local.
Superposé à DLB
GLB étend la décision DLB ; il ne la remplace pas. Les fabrics mixtes comportant des switches compatibles GLB et d'autres uniquement DLB se comportent correctement : les switches non-GLB apportent simplement une qualité purement locale.
Jusqu'au plafond de 16k GPU
Designs de référence avec des tiers spine de 256 ports et des tiers super-spine de 64 ports, dimensionnés au plafond architectural de 16 384 GPU en utilisant des châssis 64×800G TH5 comme brique de base.
gNMI pour l'équipe ops
Scores par chemin, événements de rebind et attribution du pire saut diffusés via gNMI/OpenConfig, les SRE peuvent ainsi corréler les décisions du fabric au comportement des tâches collectives xCCL (NCCL / RCCL / oneCCL) sans boîte noire.
Feuille de route et disponibilité
- OcNOS 7.1, première version. GLB est livré dans le cadre de la branche 7.1 d'OcNOS-DC, sur le même matériel TH4 / TH5 qui exécute DLB aujourd'hui. Calendrier et périmètre des fonctionnalités sur le Page des versions OcNOS.
- Même SKU. Inclus dans OcNOS-DC PLUS : pas de paywall par fonctionnalité, pas de nouvelles clés de licence au moment de la mise à niveau.
- Mise à niveau sur place. La mise à niveau brownfield de la 7.0 vers la 7.1 est prise en charge ; les fabrics à versions mixtes continuent de fonctionner avec un comportement DLB uniquement pendant la fenêtre de mise à niveau.
- UEC-aligned. Le plan de qualité de chemin est conçu pour interopérer avec la signalisation de l'Ultra Ethernet Consortium dès que les écosystèmes de NIC UEC arriveront à maturité, de sorte que 7.1 GLB est compatible avec l'orientation que prend l'industrie. Voir Ultra Ethernet (UEC).
- Revue d'architecture disponible. Si vous dimensionnez un fabric de plus de 1000 GPU, nous mènerons un exercice de dimensionnement incluant le plan de télémétrie GLB.