AI Fabric Topologies: Rail-Optimized & Scheduled Designs
你的 fabric 形態決定了你的訓練作業的形態。本頁闡述 OcNOS-DC 針對其設計的三種參考拓撲:rail-only、rail-optimized 以及調度式三級 Clos,並以 Broadcom Tomahawk 4 和 Tomahawk 5 硬體上具體的埠數量進行規模化呈現。
按 GPU 數量選擇,而非按流行術語
AI fabric 拓撲只有一個使命:保持 every 在一次集合通信期間使 GPU 的出站鏈路飽和,同時又不產生尾延遲離群值。理想的拓撲是能為您的 GPU 數量實現這一點的最小拓撲,並為下一更大規模預留回退路徑。下方:OcNOS-DC 當前已驗證的三種參考設計,附帶具體的埠計算。
僅 Rail 單 pod
一行機櫃、八臺軌道對齊 ToR。無需 spine 層。兩層合併架構。
Rail-optimized leaf-spine
採用軌道對齊的 leaf 加共享 spine 層。軌道間的東西向流量經由 spine;軌道內流量保持本地轉發。
3 級 Clos 調度型
Leaf、spine、super-spine。端到端無阻塞 1:1 收斂比。每一層均啟用 DLB;在 OcNOS 7.1 中實現端到端 GLB。
規模化調度型 fabric
帶有超級骨幹平面的多 Pod 三級 Clos。專為萬億參數訓練級別設計。
軌道最佳化單 Pod
每臺 GPU 伺服器配備 8 個 NIC,每個對應一條 "rail",即專用 xCCL (NCCL / RCCL / oneCCL) 集體通信通道。每條 rail 擁有獨立的專用葉交換機、因此每臺伺服器的 8 個 NIC 都落到不同的葉交換機上。跨 rail-N 的 AllReduce 保持在 leaf-N 內部。主導集體通信模式不會對 spine 產生東西向壓力。
OcNOS 組件: EVPN-VXLAN underlay、BGP unnumbered、每臺葉交換機均運行無損 RoCEv2、spine 層運行 DLB。已在 Edgecore AS9736-64D (TH4) 葉交換機與 AIS800-64D / UfiSpace S9321-64E (TH5) spine 上驗證。
調度式對比 Rail-Aligned:規模化時的變化
Rail-optimized 架構在大約 1k 到 2k GPU 之間會停止擴展:要麼 leaf 的埠基數耗盡,要麼 spine 層超額訂閱過高。超過此規模後,所有現代 AI fabric 都是三級 Clos:leaf、spine、super-spine。這裡所說的「scheduled(調度式)」指的是採用 基於信元的調度型 Fabric 調度 or 基於信用的調度 疊加在 Clos 之上,將利用率推向 1.0:這正是 UEC 和 GLB 的設計目標。
三級 Clos 調度網路:4,096–16,384 個 GPU
三層架構:leaf、spine、super-spine。任意 GPU 到其他任意 GPU 都恰好相隔四跳交換機。當基數計算成立時實現無阻塞。每一跳均有 DLB,在 OcNOS 7.1 上實現全路徑 GLB,並在支持 UEC 的 NIC 上實現 UEC packet-spray。
OcNOS 組件: eBGP unnumbered underlay、EVPN-VXLAN 多租戶 overlay、RoCEv2 無損傳輸、每一層的 DLB、OcNOS 7.1 系列上的端到端 GLB,以及向你的可觀測性棧傳輸的 gNMI 流式遙測。全程在 TH5 64×800G 機箱上完成驗證。
適用於分布式訓練的多 DC 與 DCI
當單次訓練任務跨越多個數據機房時(這在萬億參數模型中日益普遍),網路結構需要延伸至 WAN。OcNOS-DC 在 spine 上直接支持 400G ZR / ZR+ 相干光模組,實現免轉發器的 DCI,並通過 EVPN 隧道擴展跨站點承載 VXLAN 租戶。
多資料中心 AI 網路:相干 DCI
兩個 AI 資料中心通過 spine 上的 400G ZR/ZR+ 互聯。EVPN inter-DC 承載 L2/L3 租戶擴展;各站點底層的三級 Clos 保持不變。
OcNOS 組件: 在 spine 自身上即可插入 400G ZR/ZR+ 相干光模組,通過 EVPN inter-DC 實現租戶 L2/L3 擴展,並跨站點提供 gNMI 遙測,無需任何外部轉發器。
設計經驗法則
- 使拓撲與 GPU 數量相匹配。 最小規模 pod(不超過單臺 leaf 的 NIC 基數):僅用 rail-only 即可。單 pod 規模:採用 rail 最佳化的 leaf-spine。多 pod 規模:三級 Clos 是唯一能在不犧牲超額訂閱的前提下實現擴展的設計。
- AI 平面始終保持 1:1 無收斂比。 儲存與 CPU 機架可承受更高的超額訂閱。GPU 平面則不應如此。
- 軌道數應依據 xCCL 規劃,而非布線便利。 對於 8-NIC GPU 伺服器,8 軌是當前的事實標準。請勿將多條軌合併到更少的 leaf 上。
- 按功耗和密度選擇晶片,而非按品牌標識。 TH4(25.6T)和 TH5(51.2T)是主力晶片;二者之間的取捨在於機架功耗和 breakout 線纜成本。
- 在設計階段就為 GLB / UEC 做好規劃。 從第一天起就將遙測平面構建到位,即便是在 7.0 fabric 上,這樣 OcNOS 7.1 GLB 升級便純粹是一次軟體操作。詳見 GLB and Ultra Ethernet.
- 對照 HCL 進行驗證。 此處的每個參考方案均構建於所列硬體之上,詳見 OcNOS 硬體兼容性列表;從那裡開始即可獲得一流支持。