AI Fabric Topologies: Rail-Optimized & Scheduled Designs
La forme de votre fabric décide de la forme de votre job d'entraînement. Cette page présente les trois topologies de référence contre lesquelles OcNOS-DC est livré, rail-only, rail-optimized et Clos 3-stage ordonnancé, dimensionnées en nombres de ports concrets sur le matériel Broadcom Tomahawk 4 et Tomahawk 5.
Choisissez selon le nombre de GPU, pas selon un buzzword
Une topologie de fabric IA a une seule mission : maintenir every le lien sortant d'un GPU saturé pendant un collectif sans créer de valeurs aberrantes de latence de queue. La bonne topologie est la plus petite qui réalise cela pour votre nombre de GPU, avec un chemin de repli pour la taille immédiatement supérieure. Ci-dessous : trois conceptions de référence qu'OcNOS-DC valide aujourd'hui, avec des calculs de ports concrets.
Pod unique rail-only
Une rangée de baies, huit ToR alignés sur rails. Pas d'étage spine. Architecture condensée à deux niveaux.
Rail-optimized leaf-spine
Leaves alignées sur les rails avec un niveau de spine partagé. Le trafic est-ouest entre rails utilise le spine ; le trafic intra-rail reste local.
Clos 3 étages planifié
Leaf, spine, super-spine. Suroupscription non bloquante 1:1 de bout en bout. DLB à chaque niveau ; GLB de bout en bout avec OcNOS 7.1.
Fabric planifié à grande échelle
Clos à 3 étages multi-pod avec un plan super-spine. Dimensionné pour la classe d'entraînement à mille milliards de paramètres.
Pod unique optimisé pour le rail
Chaque serveur GPU dispose de 8 NIC, un par « rail » (un canal collectif xCCL (NCCL / RCCL / oneCCL) dédié). Chaque rail a son propre leaf dédié, les 8 NIC de chaque serveur atterrissent donc sur des leaves différents. AllReduce sur le rail-N reste à l'intérieur du leaf-N. Pas de pression est-ouest sur le spine pour le pattern collectif dominant.
Composants OcNOS : Underlay EVPN-VXLAN, BGP unnumbered, RoCEv2 lossless sur chaque leaf, DLB au tier spine. Validé sur leaves Edgecore AS9736-64D (TH4) et spines AIS800-64D / UfiSpace S9321-64E (TH5).
Ordonnancée vs alignée sur les rails : ce qui change à grande échelle
L'architecture rail-optimized cesse de monter en charge quelque part entre 1k et 2k GPU : vous épuisez le radix des leaf, ou bien le niveau spine devient trop surouscrit. Au-delà, chaque fabric IA moderne est un Clos à 3 étages : leaf, spine, super-spine. Le qualificatif « scheduled » fait référence à l'utilisation de ordonnancement de fabric planifié à base de cellules or planification basée sur les crédits par-dessus le Clos pour pousser l'utilisation vers 1.0 : exactement ce que UEC et GLB sont conçus pour faire.
Fabric ordonnancée Clos à 3 étages : 4 096 à 16 384 GPU
Trois niveaux : leaf, spine, super-spine. Chaque GPU se trouve exactement à quatre sauts de switch de n'importe quel autre GPU. Non-bloquant lorsque le calcul du radix le permet. DLB à chaque saut, GLB sur l'ensemble du chemin avec OcNOS 7.1, packet-spray UEC sur les NIC compatibles UEC.
Composants OcNOS : Underlay eBGP unnumbered, overlay multi-tenant EVPN-VXLAN, RoCEv2 lossless, DLB à chaque niveau, GLB de bout en bout sur la branche OcNOS 7.1, télémétrie streaming gNMI vers votre stack d'observabilité. Validé sur châssis TH5 64×800G de bout en bout.
Multi-DC et DCI pour l'entraînement distribué
Lorsqu'un même cycle d'entraînement s'étend sur plus d'une salle de données, ce qui devient de plus en plus courant pour les modèles à mille milliards de paramètres, la fabric s'étend à travers le WAN. OcNOS-DC prend en charge les optiques cohérentes 400G ZR / ZR+ directement sur le spine pour un DCI sans transpondeur, avec une extension de tunnel EVPN transportant les tenants VXLAN entre les sites.
Fabric IA multi-DC : DCI cohérente
Deux datacenters IA reliés entre eux par du 400G ZR/ZR+ sur le spine. L'EVPN inter-DC porte l'extension de locataires L2/L3 ; le Clos à 3 étages sous-jacent de chaque site reste inchangé.
Composants OcNOS : Optiques cohérentes enfichables 400G ZR/ZR+ sur le spine lui-même, EVPN inter-DC pour l'extension L2/L3 des locataires, télémétrie gNMI entre sites. Aucun transpondeur externe requis.
Règles de conception empiriques
- Adaptez la topologie au nombre de GPU. Pods les plus petits (en deçà du radix de NIC d'un seul leaf) : le rail-only suffit. Échelle d'un seul pod : leaf-spine optimisé pour le rail. Multi-pod : le Clos à 3 étages est la seule conception qui passe à l'échelle sans compromis de suroupabonnement.
- Toujours une surouscription 1:1 sur le plan IA. Les baies de stockage et de CPU peuvent fonctionner avec une surouscription plus élevée. Le plan GPU ne le devrait pas.
- Dimensionnez le nombre de rails à partir de xCCL, pas du câblage. 8 rails est aujourd'hui le standard de fait pour les serveurs GPU à 8 NIC. Ne combinez pas les rails sur moins de leaves.
- Choisissez le silicon selon la puissance et la densité, pas selon le badge. Le TH4 (25,6T) et le TH5 (51,2T) sont les bêtes de somme ; le choix entre les deux relève de la puissance en rack et du coût des câbles breakout.
- Prévoyez GLB / UEC dès la conception. Intégrez le plan de télémétrie dès le premier jour, même sur une fabric 7.0, afin que la mise à niveau GLB d'OcNOS 7.1 ne soit qu'une simple étape logicielle. Voir GLB and Ultra Ethernet.
- Validez par rapport à la HCL. Chaque référence présentée ici repose sur du matériel listé dans le Liste de compatibilité matérielle OcNOS; partez de là pour un support de premier ordre.