AI Fabric Topologies: Rail-Optimized & Scheduled Designs
ファブリックの形状が、トレーニングジョブの形状を決定します。本ページでは、OcNOS-DCが対応する3つのリファレンストポロジ、すなわちrail-only、rail-optimized、scheduled 3-stage Closを、Broadcom Tomahawk 4およびTomahawk 5ハードウェア上の具体的なポート数で示します。
バズワードではなく、GPU数で選ぶ
AI ファブリックトポロジの役割はただ一つ:維持すること every 集団通信中に GPU の送信リンクが飽和しても、テールレイテンシの外れ値を生じさせません。最適なトポロジは、自社の GPU 数に対してこれを実現する最小のものであり、1 サイズ上へのフォールバック パスを備えます。以下に、OcNOS-DC が現時点で検証している 3 つのリファレンス デザインを、具体的なポート計算とともに示します。
レール専用シングルポッド
1 ラック列、8 台のレール対応 ToR。スパインティアは不要。2 ティアのコラプスト (collapsed) 設計です。
Rail-optimized leaf-spine
スパイン層を共有するレール整合型リーフ。レール間のイースト・ウエストトラフィックはスパインを経由し、レール内トラフィックはローカルに留まります。
3ステージClosスケジュールド
リーフ、スパイン、スーパースパイン。エンドツーエンドでノンブロッキングの1:1オーバーサブスクリプション。各階層でDLB、OcNOS 7.1ではエンドツーエンドのGLB。
スケールするスケジュールドファブリック
スーパースパインプレーンを備えたマルチポッド3ステージClos。1兆パラメータ規模のトレーニングクラス向けに最適化。
レール最適化シングルポッド
各 GPU サーバには 8 つの NIC が搭載され、それぞれが「レール」 (専用の xCCL (NCCL / RCCL / oneCCL) 集合通信チャネル) に対応します。各レールは独自の専用リーフを持ち、各サーバの 8 つの NIC はすべて異なるリーフに収容されます。レール N をまたぐ AllReduce はリーフ N の内部に留まります。支配的な集合通信パターンではスパインに east-west 方向の負荷がかかりません。
OcNOS構成要素: EVPN-VXLAN アンダーレイ、BGP unnumbered、全リーフでロスレス RoCEv2、スパインティアで DLB。Edgecore AS9736-64D (TH4) リーフおよび AIS800-64D / UfiSpace S9321-64E (TH5) スパインで検証済み。
スケジュールド対レールアラインド:スケール時に何が変わるか
レール最適化構成は、1,000~2,000 GPUのどこかでスケーリングが頭打ちになります。leaf段の収容ポート数が不足するか、spine段の過剰収容が深刻化するためです。それを超える規模では、最新のAIファブリックはすべてleaf/spine/super-spineの3段Closとなります。「scheduled」という呼称が指すのは、次の手法の採用です セルベースのスケジュールドファブリックスケジューリング or クレジットベースのスケジューリング Clos上に重ねて使用率を1.0へ近づける機能。まさにUECとGLBが実現するために設計されたもの。
3ステージClosスケジュールドファブリック:4,096~16,384 GPU
3階層:リーフ、スパイン、スーパースパイン。あらゆるGPUは他のいずれのGPUからも正確に4スイッチホップの距離。radixの計算が成立すればノンブロッキング。各ホップでDLB、OcNOS 7.1ではパス全体でGLB、UEC対応NIC上でUECパケットスプレーを実現。
OcNOS構成要素: eBGP unnumberedアンダーレイ、EVPN-VXLANマルチテナントオーバーレイ、RoCEv2ロスレス、全階層でのDLB、OcNOS 7.1系列でのエンドツーエンドGLB、観測性スタックへのgNMIストリーミングテレメトリ。全体を通じてTH5 64×800Gシャーシ上で検証済み。
分散学習向けのマルチ DC および DCI
単一のトレーニング実行が複数のデータホールにまたがる場合(兆パラメータ規模のモデルでは次第に一般的になっています)、ファブリックは WAN へと拡張されます。OcNOS-DC はスパイン上で 400G ZR / ZR+ コヒーレント光をそのままサポートし、トランスポンダー不要の DCI を実現するとともに、EVPN トンネル拡張により VXLAN テナントを拠点間で伝送します。
マルチDC AIファブリック:コヒーレントDCI
スパインに400G ZR/ZR+を用いて連結された2つのAIデータセンター。EVPN inter-DCがL2/L3テナント拡張を担い、各サイトの基盤となる3段Closは変わりません。
OcNOS構成要素: スパイン自体に400G ZR/ZR+プラガブルコヒーレント光、テナントL2/L3拡張のためのEVPN inter-DC、サイト間にわたるgNMIテレメトリ。外部トランスポンダーは不要です。
設計の目安
- トポロジーをGPU数に合わせる。 最小規模のポッド(リーフ1台の NIC 基数未満):レールのみで十分。シングルポッド規模:レール最適化リーフ・スパイン。マルチポッド:3段 Clos が、オーバーサブスクリプションの妥協なくスケールする唯一の設計。
- AI プレーンでは常に 1:1 オーバーサブスクリプション。 ストレージおよびCPUラックはより高いオーバーサブスクリプションで運用可能。GPUプレーンは不可。
- レール数は配線の都合ではなく xCCL を起点に決定します。 8レールは、8-NIC GPUサーバー向けの現行デファクトスタンダードです。レールを少数のリーフに統合しないでください。
- バッジではなく、電力と密度でシリコンを選択。 TH4(25.6T)とTH5(51.2T)が主力です。両者の選択は、ラック電力とブレイクアウトケーブルのコストによって決まります。
- 設計段階からGLB/UECを見据えた計画を。 7.0ファブリックであっても初日からテレメトリプレーンを組み込んでおくことで、OcNOS 7.1のGLBアップグレードを純粋なソフトウェアステップにできます。以下を参照 GLB and Ultra Ethernet.
- HCLに照らして検証。 ここで紹介する各リファレンスは、以下に記載のハードウェア上に構築: OcNOSハードウェア互換性リスト。そこから選択することで第一級のサポートを実現。