AI Fabric Topologies: Rail-Optimized & Scheduled Designs

fabric의 형태가 학습 작업의 형태를 결정합니다. 이 페이지는 OcNOS-DC가 지원하는 세 가지 참조 토폴로지(rail-only, rail-optimized, scheduled 3-stage Clos)를 Broadcom Tomahawk 4 및 Tomahawk 5 하드웨어 기준의 구체적인 포트 수로 산정하여 제시합니다.

유행어가 아닌 GPU 수로 선택하세요

AI 패브릭 토폴로지의 임무는 하나입니다: every 테일 레이턴시 이상치를 발생시키지 않으면서 컬렉티브 동작 중 GPU의 아웃바운드 링크를 포화시킵니다. 올바른 토폴로지는 귀사의 GPU 수에 맞춰 이를 달성하는 가장 작은 토폴로지이며, 한 단계 큰 규모를 위한 폴백 경로를 갖추고 있습니다. 아래는 OcNOS-DC가 현재 검증하는 세 가지 참조 설계로, 구체적인 포트 계산을 함께 제시합니다.

256GPUs

Rail-only 단일 파드

랙 1열, 레일 정렬형 ToR 8대. 스파인 계층 불필요. 2계층 통합(collapsed) 설계입니다.

8 × TH4 leaf · leaf당 32 GPU
1,024GPUs

Rail-optimized leaf-spine

공유 spine 계층을 갖춘 rail 정렬 leaf 구조. rail 간 east-west 트래픽은 spine을 거치고, rail 내부 트래픽은 로컬에 머뭅니다.

32 리프 · 8 스파인 · TH4 / TH5 혼합
4,096GPUs

3단 Clos 스케줄드

Leaf, spine, super-spine. 종단 간 non-blocking 1:1 oversubscription. 모든 계층에서 DLB, OcNOS 7.1로 종단 간 GLB.

리프 128개 · 스파인 64개 · 슈퍼 스파인 16개 (TH5)
16,384GPUs

확장형 스케줄드 fabric

슈퍼스파인 플레인을 갖춘 멀티 파드 3단계 Clos. 조 단위 파라미터 학습 클래스에 맞게 설계되었습니다.

512개 leaf · 256개 spine · 64개 super-spine (TH5 800G)
레퍼런스 디자인 1

Rail-Optimized 단일 Pod

각 GPU 서버는 NIC 8개를 가지며 각각이 "레일" (전용 xCCL (NCCL / RCCL / oneCCL) 컬렉티브 채널) 에 대응합니다. 각 레일은 자체 전용 리프를 가지므로 모든 서버의 NIC 8개가 서로 다른 리프에 도착합니다. 레일 N 간의 AllReduce는 리프 N 내부에 머무릅니다. 지배적 컬렉티브 패턴에서는 스파인에 east-west 부하가 발생하지 않습니다.

Rail 최적화 AI 패브릭: 8개 rail, 8개 leaf, 공유 spine 계층 레일 최적화 AI 패브릭입니다. 하단의 GPU 서버 8대는 각각 8개의 NIC를 보유하며 이는 8개의 레일 리프에 정렬됩니다. 모든 서버의 Rail-N은 leaf-N에 연결됩니다. 리프 상위의 스파인 계층은 레일 간 트래픽을 전달합니다. 지배적인 AllReduce 트래픽은 하나의 레일 내에 머물며 스파인을 거치지 않습니다. Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf GPU Server 1 8 × NIC · 8 rail GPU Server 2 8 × NIC · 8 rail GPU Server 3 8 × NIC · 8 rail GPU Server 4 8 × NIC · 8 rail RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

OcNOS 구성 요소: EVPN-VXLAN 언더레이, BGP unnumbered, 모든 리프에서 무손실 RoCEv2, 스파인 계층에서 DLB. Edgecore AS9736-64D (TH4) 리프 및 AIS800-64D / UfiSpace S9321-64E (TH5) 스파인에서 검증.

Scheduled vs Rail-Aligned: 대규모 환경에서 달라지는 점

Rail-optimized 설계는 1k에서 2k GPU 사이 어딘가에서 확장이 멈춥니다: leaf radix가 소진되거나 spine 계층의 oversubscription이 과도해집니다. 그 이상에서는 모든 최신 AI 패브릭이 3단계 Clos 구조입니다: leaf, spine, super-spine. "scheduled"라는 표현은 다음의 사용을 가리킵니다 셀 기반 스케줄드 패브릭 스케줄링 or 크레딧 기반 스케줄링 활용률을 1.0에 가깝게 끌어올리기 위해 Clos 위에 적용: UEC와 GLB가 정확히 이를 위해 설계되었습니다.

레퍼런스 디자인 2

3-Stage Clos 스케줄드 패브릭: 4,096–16,384 GPU

리프, 스파인, 슈퍼 스파인의 세 계층으로 구성됩니다. 모든 GPU는 다른 어떤 GPU와도 정확히 스위치 4홉만큼 떨어져 있습니다. radix 계산이 맞아떨어질 경우 논블로킹을 구현합니다. 모든 홉에서 DLB를, OcNOS 7.1에서는 전체 경로에 걸친 GLB를, UEC 지원 NIC에서는 UEC packet-spray를 적용합니다.

3단 Clos AI 패브릭 스케줄드 토폴로지 3-stage Clos 토폴로지입니다. 최상위 계층은 네 개의 super-spine 스위치를 보여줍니다. 중간 계층은 여덟 개의 spine 스위치를 보여줍니다. 하위 계층은 GPU pod에 연결되는 12개의 leaf 스위치를 보여줍니다. leaf에서 spine으로, spine에서 super-spine으로 full mesh 링크가 구성됩니다. 하단 밴드 라벨: 4096 GPU scheduled fabric, 모든 계층의 DLB, OcNOS 7.1의 end-to-end GLB. Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12개 pod · pod당 약 340개 GPU · 총 4,096개 GPU · TH5 · 800G 3-STAGE CLOS · 4,096 GPU · DLB EVERY HOP · GLB E2E (OcNOS 7.1) · UEC-READY

OcNOS 구성 요소: eBGP unnumbered 언더레이, EVPN-VXLAN 멀티테넌트 오버레이, RoCEv2 무손실, 모든 계층의 DLB, OcNOS 7.1 트레인의 종단 간 GLB, 그리고 옵저버빌리티 스택으로의 gNMI 스트리밍 텔레메트리를 제공합니다. 전 구간에 걸쳐 TH5 64×800G 섀시에서 검증되었습니다.

분산 학습을 위한 멀티 DC 및 DCI

단일 학습 작업이 둘 이상의 데이터 홀에 걸쳐 실행될 때(조 단위 파라미터 모델에서 점점 더 흔해지고 있습니다) 패브릭은 WAN 전반으로 확장됩니다. OcNOS-DC는 스파인에서 직접 400G ZR / ZR+ 코히어런트 광 모듈을 지원하여 트랜스폰더 없는 DCI를 구현하며, EVPN 터널 확장을 통해 VXLAN 테넌트를 여러 사이트에 걸쳐 전달합니다.

레퍼런스 디자인 3

멀티 DC AI 패브릭: 코히어런트 DCI

spine에 400G ZR/ZR+를 적용해 두 개의 AI 데이터센터를 하나로 연결합니다. EVPN inter-DC가 L2/L3 tenant 확장을 담당하며, 각 사이트의 기반 3-stage Clos는 그대로 유지됩니다.

400G ZR/ZR+ DCI를 갖춘 멀티 DC AI 패브릭 두 개의 AI 데이터센터로, 각각 리프-스파인 패브릭을 갖추고 있습니다. 두 스파인은 WAN을 가로질러 400G ZR/ZR+ 코히런트 광학을 통해 연결됩니다. EVPN inter-DC 터널이 테넌트를 한 사이트에서 다른 사이트로 확장합니다. 하단 영역은 트랜스폰더가 필요 없는 코히런트 DCI입니다. DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 GPU pod · Site A GPU pod · Site B 코히어런트 DCI · 트랜스폰더 불필요 · EVPN 인터 DC · 400G ZR/ZR+

OcNOS 구성 요소: spine 자체에 400G ZR/ZR+ pluggable coherent optics를 탑재하고, tenant L2/L3 확장을 위한 EVPN inter-DC, 사이트 전반의 gNMI telemetry를 제공합니다. 외부 transponder가 필요 없습니다.

설계 경험 법칙

  • 토폴로지를 GPU 수에 맞추세요. 가장 작은 파드(단일 리프의 NIC radix 미만): rail-only로 충분합니다. 단일 파드 규모: rail-optimized 리프-스파인. 멀티 파드: 3-스테이지 Clos는 오버서브스크립션 타협 없이 확장할 수 있는 유일한 설계입니다.
  • AI 플레인에서 항상 1:1 오버서브스크립션. 스토리지 및 CPU 랙은 더 높은 oversubscription으로 운영할 수 있습니다. GPU 플레인은 그래서는 안 됩니다.
  • 레일 수는 케이블링 편의가 아니라 xCCL을 기준으로 결정합니다. 8 rail은 현재 8-NIC GPU 서버의 사실상 표준입니다. rail을 더 적은 수의 leaf로 통합하지 마세요.
  • 배지가 아닌 전력과 밀도로 실리콘을 선택하십시오. TH4(25.6T)와 TH5(51.2T)가 핵심 주력 제품이며, 둘 사이의 선택은 랙 전력과 breakout 케이블 비용에 달려 있습니다.
  • 설계 단계에서 GLB / UEC를 계획하십시오. 7.0 패브릭에서도 첫날부터 텔레메트리 플레인을 구축해 두면, OcNOS 7.1 GLB 업그레이드가 순수한 소프트웨어 단계만으로 끝납니다. 참고: GLB and Ultra Ethernet.
  • HCL 기준으로 검증하십시오. 여기 모든 레퍼런스는 다음에 나열된 하드웨어 기반으로 구축되었습니다 OcNOS 하드웨어 호환성 목록; 거기서부터 최상급 지원을 선택하십시오.

AI 패브릭을 설계 중이신가요? 포트 수 계산을 함께 진행하겠습니다.

아키텍처 리뷰 예약하기 →