AI Fabric Topologies: Rail-Optimized & Scheduled Designs

你的 fabric 形態決定了你的訓練作業的形態。本頁闡述 OcNOS-DC 針對其設計的三種參考拓撲:rail-only、rail-optimized 以及調度式三級 Clos,並以 Broadcom Tomahawk 4 和 Tomahawk 5 硬體上具體的埠數量進行規模化呈現。

按 GPU 數量選擇,而非按流行術語

AI fabric 拓撲只有一個使命:保持 every 在一次集合通信期間使 GPU 的出站鏈路飽和,同時又不產生尾延遲離群值。理想的拓撲是能為您的 GPU 數量實現這一點的最小拓撲,並為下一更大規模預留回退路徑。下方:OcNOS-DC 當前已驗證的三種參考設計,附帶具體的埠計算。

256GPUs

僅 Rail 單 pod

一行機櫃、八臺軌道對齊 ToR。無需 spine 層。兩層合併架構。

8 × TH4 葉節點 · 32 GPU/葉節點
1,024GPUs

Rail-optimized leaf-spine

採用軌道對齊的 leaf 加共享 spine 層。軌道間的東西向流量經由 spine;軌道內流量保持本地轉發。

32 個 leaf · 8 個 spine · TH4 / TH5 混合組網
4,096GPUs

3 級 Clos 調度型

Leaf、spine、super-spine。端到端無阻塞 1:1 收斂比。每一層均啟用 DLB;在 OcNOS 7.1 中實現端到端 GLB。

128 個 leaf · 64 個 spine · 16 個 super-spine(TH5)
16,384GPUs

規模化調度型 fabric

帶有超級骨幹平面的多 Pod 三級 Clos。專為萬億參數訓練級別設計。

512 個葉 · 256 個脊 · 64 個超級脊(TH5 800G)
參考設計 1

軌道最佳化單 Pod

每臺 GPU 伺服器配備 8 個 NIC,每個對應一條 "rail",即專用 xCCL (NCCL / RCCL / oneCCL) 集體通信通道。每條 rail 擁有獨立的專用葉交換機、因此每臺伺服器的 8 個 NIC 都落到不同的葉交換機上。跨 rail-N 的 AllReduce 保持在 leaf-N 內部。主導集體通信模式不會對 spine 產生東西向壓力。

軌道最佳化的 AI fabric:8 條軌道、8 個 leaf、共享 spine 層 軌道最佳化的 AI 網路結構。底部的八臺 GPU 伺服器各配備八塊網卡,分別對齊八臺 rail-leaf。每臺伺服器的 Rail-N 連接至 leaf-N。leaf 之上的 spine 層承載跨軌道流量。佔主導地位的 AllReduce 流量保持在單一軌道內,從不經過 spine。 Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf GPU Server 1 8 × NIC · 8 條 rail GPU Server 2 8 × NIC · 8 條 rail GPU Server 3 8 × NIC · 8 條 rail GPU Server 4 8 × NIC · 8 條 rail RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

OcNOS 組件: EVPN-VXLAN underlay、BGP unnumbered、每臺葉交換機均運行無損 RoCEv2、spine 層運行 DLB。已在 Edgecore AS9736-64D (TH4) 葉交換機與 AIS800-64D / UfiSpace S9321-64E (TH5) spine 上驗證。

調度式對比 Rail-Aligned:規模化時的變化

Rail-optimized 架構在大約 1k 到 2k GPU 之間會停止擴展:要麼 leaf 的埠基數耗盡,要麼 spine 層超額訂閱過高。超過此規模後,所有現代 AI fabric 都是三級 Clos:leaf、spine、super-spine。這裡所說的「scheduled(調度式)」指的是採用 基於信元的調度型 Fabric 調度 or 基於信用的調度 疊加在 Clos 之上,將利用率推向 1.0:這正是 UEC 和 GLB 的設計目標。

參考設計 2

三級 Clos 調度網路:4,096–16,384 個 GPU

三層架構:leaf、spine、super-spine。任意 GPU 到其他任意 GPU 都恰好相隔四跳交換機。當基數計算成立時實現無阻塞。每一跳均有 DLB,在 OcNOS 7.1 上實現全路徑 GLB,並在支持 UEC 的 NIC 上實現 UEC packet-spray。

三級 Clos AI fabric 調度型拓撲 三級 Clos 拓撲。頂層為四臺 super-spine 交換機。中層為八臺 spine 交換機。底層為 12 臺 leaf 交換機,向 GPU pod 饋送流量。leaf 到 spine、spine 到 super-spine 之間為全互聯鏈路。底部條帶標註:4096 GPU 調度網路、各層級 DLB、端到端 GLB(基於 OcNOS 7.1)。 Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12 個 pod · 每 pod 約 340 個 GPU · 共 4,096 個 GPU · TH5 · 800G 3-STAGE CLOS · 4,096 GPU · DLB EVERY HOP · GLB E2E(OcNOS 7.1)· UEC-READY

OcNOS 組件: eBGP unnumbered underlay、EVPN-VXLAN 多租戶 overlay、RoCEv2 無損傳輸、每一層的 DLB、OcNOS 7.1 系列上的端到端 GLB,以及向你的可觀測性棧傳輸的 gNMI 流式遙測。全程在 TH5 64×800G 機箱上完成驗證。

適用於分布式訓練的多 DC 與 DCI

當單次訓練任務跨越多個數據機房時(這在萬億參數模型中日益普遍),網路結構需要延伸至 WAN。OcNOS-DC 在 spine 上直接支持 400G ZR / ZR+ 相干光模組,實現免轉發器的 DCI,並通過 EVPN 隧道擴展跨站點承載 VXLAN 租戶。

參考設計 3

多資料中心 AI 網路:相干 DCI

兩個 AI 資料中心通過 spine 上的 400G ZR/ZR+ 互聯。EVPN inter-DC 承載 L2/L3 租戶擴展;各站點底層的三級 Clos 保持不變。

採用 400G ZR/ZR+ DCI 的多 DC AI fabric 兩個 AI 資料中心,各自採用 leaf-spine fabric。兩個 spine 通過跨 WAN 的 400G ZR/ZR+ 相干光模組互聯。EVPN 資料中心間隧道將租戶從一個站點延伸至另一個站點。底部條帶:無需轉發器的相干 DCI。 DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 GPU pod · 站點 A GPU pod · 站點 B 相干 DCI · 免轉發器 · EVPN 跨資料中心 · 400G ZR/ZR+

OcNOS 組件: 在 spine 自身上即可插入 400G ZR/ZR+ 相干光模組,通過 EVPN inter-DC 實現租戶 L2/L3 擴展,並跨站點提供 gNMI 遙測,無需任何外部轉發器。

設計經驗法則

  • 使拓撲與 GPU 數量相匹配。 最小規模 pod(不超過單臺 leaf 的 NIC 基數):僅用 rail-only 即可。單 pod 規模:採用 rail 最佳化的 leaf-spine。多 pod 規模:三級 Clos 是唯一能在不犧牲超額訂閱的前提下實現擴展的設計。
  • AI 平面始終保持 1:1 無收斂比。 儲存與 CPU 機架可承受更高的超額訂閱。GPU 平面則不應如此。
  • 軌道數應依據 xCCL 規劃,而非布線便利。 對於 8-NIC GPU 伺服器,8 軌是當前的事實標準。請勿將多條軌合併到更少的 leaf 上。
  • 按功耗和密度選擇晶片,而非按品牌標識。 TH4(25.6T)和 TH5(51.2T)是主力晶片;二者之間的取捨在於機架功耗和 breakout 線纜成本。
  • 在設計階段就為 GLB / UEC 做好規劃。 從第一天起就將遙測平面構建到位,即便是在 7.0 fabric 上,這樣 OcNOS 7.1 GLB 升級便純粹是一次軟體操作。詳見 GLB and Ultra Ethernet.
  • 對照 HCL 進行驗證。 此處的每個參考方案均構建於所列硬體之上,詳見 OcNOS 硬體兼容性列表;從那裡開始即可獲得一流支持。

正在設計您的 AI fabric?我們與您一起完成埠數量的測算。

預約架構評審 →