AI Fabric Topologies: Rail-Optimized & Scheduled Designs

La forme de votre fabric décide de la forme de votre job d'entraînement. Cette page présente les trois topologies de référence contre lesquelles OcNOS-DC est livré, rail-only, rail-optimized et Clos 3-stage ordonnancé, dimensionnées en nombres de ports concrets sur le matériel Broadcom Tomahawk 4 et Tomahawk 5.

Choisissez selon le nombre de GPU, pas selon un buzzword

Une topologie de fabric IA a une seule mission : maintenir every le lien sortant d'un GPU saturé pendant un collectif sans créer de valeurs aberrantes de latence de queue. La bonne topologie est la plus petite qui réalise cela pour votre nombre de GPU, avec un chemin de repli pour la taille immédiatement supérieure. Ci-dessous : trois conceptions de référence qu'OcNOS-DC valide aujourd'hui, avec des calculs de ports concrets.

256GPUs

Pod unique rail-only

Une rangée de baies, huit ToR alignés sur rails. Pas d'étage spine. Architecture condensée à deux niveaux.

8 leaves TH4 · 32 GPU/leaf
1,024GPUs

Rail-optimized leaf-spine

Leaves alignées sur les rails avec un niveau de spine partagé. Le trafic est-ouest entre rails utilise le spine ; le trafic intra-rail reste local.

32 leaves · 8 spines · mix TH4 / TH5
4,096GPUs

Clos 3 étages planifié

Leaf, spine, super-spine. Suroupscription non bloquante 1:1 de bout en bout. DLB à chaque niveau ; GLB de bout en bout avec OcNOS 7.1.

128 leaves · 64 spines · 16 super-spines (TH5)
16,384GPUs

Fabric planifié à grande échelle

Clos à 3 étages multi-pod avec un plan super-spine. Dimensionné pour la classe d'entraînement à mille milliards de paramètres.

512 leaves · 256 spines · 64 super-spines (TH5 800G)
Reference Design 1

Pod unique optimisé pour le rail

Chaque serveur GPU dispose de 8 NIC, un par « rail » (un canal collectif xCCL (NCCL / RCCL / oneCCL) dédié). Chaque rail a son propre leaf dédié, les 8 NIC de chaque serveur atterrissent donc sur des leaves différents. AllReduce sur le rail-N reste à l'intérieur du leaf-N. Pas de pression est-ouest sur le spine pour le pattern collectif dominant.

Fabric IA optimisée par rail : 8 rails, 8 leaves, niveau spine partagé Fabric IA optimisée par rail. Huit serveurs GPU en bas, chacun doté de huit NIC alignées sur huit rail-leaves. Le Rail-N de chaque serveur se connecte au leaf-N. Un étage de spine au-dessus des leaves transporte le trafic inter-rails. Le trafic AllReduce dominant reste à l'intérieur d'un même rail, sans jamais traverser le spine. Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf Serveur GPU 1 8 × NIC · 8 rails Serveur GPU 2 8 × NIC · 8 rails Serveur GPU 3 8 × NIC · 8 rails Serveur GPU 4 8 × NIC · 8 rails RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

Composants OcNOS : Underlay EVPN-VXLAN, BGP unnumbered, RoCEv2 lossless sur chaque leaf, DLB au tier spine. Validé sur leaves Edgecore AS9736-64D (TH4) et spines AIS800-64D / UfiSpace S9321-64E (TH5).

Ordonnancée vs alignée sur les rails : ce qui change à grande échelle

L'architecture rail-optimized cesse de monter en charge quelque part entre 1k et 2k GPU : vous épuisez le radix des leaf, ou bien le niveau spine devient trop surouscrit. Au-delà, chaque fabric IA moderne est un Clos à 3 étages : leaf, spine, super-spine. Le qualificatif « scheduled » fait référence à l'utilisation de ordonnancement de fabric planifié à base de cellules or planification basée sur les crédits par-dessus le Clos pour pousser l'utilisation vers 1.0 : exactement ce que UEC et GLB sont conçus pour faire.

Reference Design 2

Fabric ordonnancée Clos à 3 étages : 4 096 à 16 384 GPU

Trois niveaux : leaf, spine, super-spine. Chaque GPU se trouve exactement à quatre sauts de switch de n'importe quel autre GPU. Non-bloquant lorsque le calcul du radix le permet. DLB à chaque saut, GLB sur l'ensemble du chemin avec OcNOS 7.1, packet-spray UEC sur les NIC compatibles UEC.

Topologie planifiée de fabric IA Clos à 3 étages Topologie Clos à trois étages. Le niveau supérieur présente quatre switches super-spine. Le niveau intermédiaire présente huit switches spine. Le niveau inférieur présente 12 switches leaf alimentant des pods GPU. Liens en full mesh des leaves vers les spines et des spines vers les super-spines. Bandeau inférieur : fabric ordonnancée de 4096 GPU, DLB à chaque niveau, GLB de bout en bout avec OcNOS 7.1. Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12 pods · ~340 GPU/pod · 4 096 GPU au total · TH5 · 800G 3-STAGE CLOS · 4 096 GPU · DLB EVERY HOP · GLB E2E (OcNOS 7.1) · UEC-READY

Composants OcNOS : Underlay eBGP unnumbered, overlay multi-tenant EVPN-VXLAN, RoCEv2 lossless, DLB à chaque niveau, GLB de bout en bout sur la branche OcNOS 7.1, télémétrie streaming gNMI vers votre stack d'observabilité. Validé sur châssis TH5 64×800G de bout en bout.

Multi-DC et DCI pour l'entraînement distribué

Lorsqu'un même cycle d'entraînement s'étend sur plus d'une salle de données, ce qui devient de plus en plus courant pour les modèles à mille milliards de paramètres, la fabric s'étend à travers le WAN. OcNOS-DC prend en charge les optiques cohérentes 400G ZR / ZR+ directement sur le spine pour un DCI sans transpondeur, avec une extension de tunnel EVPN transportant les tenants VXLAN entre les sites.

Reference Design 3

Fabric IA multi-DC : DCI cohérente

Deux datacenters IA reliés entre eux par du 400G ZR/ZR+ sur le spine. L'EVPN inter-DC porte l'extension de locataires L2/L3 ; le Clos à 3 étages sous-jacent de chaque site reste inchangé.

Fabric IA multi-DC avec DCI 400G ZR/ZR+ Deux data centers IA, chacun doté d'un fabric leaf-spine. Les deux spines se connectent via des optiques cohérentes 400G ZR/ZR+ à travers un WAN. Des tunnels EVPN inter-DC étendent les tenants d'un site à l'autre. Bande inférieure : DCI cohérent sans transpondeur. DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 Pods GPU · Site A Pods GPU · Site B DCI COHÉRENT · SANS TRANSPONDEUR · EVPN INTER-DC · 400G ZR/ZR+

Composants OcNOS : Optiques cohérentes enfichables 400G ZR/ZR+ sur le spine lui-même, EVPN inter-DC pour l'extension L2/L3 des locataires, télémétrie gNMI entre sites. Aucun transpondeur externe requis.

Règles de conception empiriques

  • Adaptez la topologie au nombre de GPU. Pods les plus petits (en deçà du radix de NIC d'un seul leaf) : le rail-only suffit. Échelle d'un seul pod : leaf-spine optimisé pour le rail. Multi-pod : le Clos à 3 étages est la seule conception qui passe à l'échelle sans compromis de suroupabonnement.
  • Toujours une surouscription 1:1 sur le plan IA. Les baies de stockage et de CPU peuvent fonctionner avec une surouscription plus élevée. Le plan GPU ne le devrait pas.
  • Dimensionnez le nombre de rails à partir de xCCL, pas du câblage. 8 rails est aujourd'hui le standard de fait pour les serveurs GPU à 8 NIC. Ne combinez pas les rails sur moins de leaves.
  • Choisissez le silicon selon la puissance et la densité, pas selon le badge. Le TH4 (25,6T) et le TH5 (51,2T) sont les bêtes de somme ; le choix entre les deux relève de la puissance en rack et du coût des câbles breakout.
  • Prévoyez GLB / UEC dès la conception. Intégrez le plan de télémétrie dès le premier jour, même sur une fabric 7.0, afin que la mise à niveau GLB d'OcNOS 7.1 ne soit qu'une simple étape logicielle. Voir GLB and Ultra Ethernet.
  • Validez par rapport à la HCL. Chaque référence présentée ici repose sur du matériel listé dans le Liste de compatibilité matérielle OcNOS; partez de là pour un support de premier ordre.

Vous concevez votre fabric IA ? Nous calculerons le nombre de ports avec vous.

Réservez une revue d'architecture →