AI Fabric Topologies: Rail-Optimized & Scheduled Designs

ファブリックの形状が、トレーニングジョブの形状を決定します。本ページでは、OcNOS-DCが対応する3つのリファレンストポロジ、すなわちrail-only、rail-optimized、scheduled 3-stage Closを、Broadcom Tomahawk 4およびTomahawk 5ハードウェア上の具体的なポート数で示します。

バズワードではなく、GPU数で選ぶ

AI ファブリックトポロジの役割はただ一つ:維持すること every 集団通信中に GPU の送信リンクが飽和しても、テールレイテンシの外れ値を生じさせません。最適なトポロジは、自社の GPU 数に対してこれを実現する最小のものであり、1 サイズ上へのフォールバック パスを備えます。以下に、OcNOS-DC が現時点で検証している 3 つのリファレンス デザインを、具体的なポート計算とともに示します。

256GPUs

レール専用シングルポッド

1 ラック列、8 台のレール対応 ToR。スパインティアは不要。2 ティアのコラプスト (collapsed) 設計です。

8 × TH4 リーフ・32 GPU/リーフ
1,024GPUs

Rail-optimized leaf-spine

スパイン層を共有するレール整合型リーフ。レール間のイースト・ウエストトラフィックはスパインを経由し、レール内トラフィックはローカルに留まります。

32リーフ ・ 8スパイン ・ TH4/TH5 混在
4,096GPUs

3ステージClosスケジュールド

リーフ、スパイン、スーパースパイン。エンドツーエンドでノンブロッキングの1:1オーバーサブスクリプション。各階層でDLB、OcNOS 7.1ではエンドツーエンドのGLB。

128 リーフ · 64 スパイン · 16 スーパースパイン(TH5)
16,384GPUs

スケールするスケジュールドファブリック

スーパースパインプレーンを備えたマルチポッド3ステージClos。1兆パラメータ規模のトレーニングクラス向けに最適化。

512リーフ・256スパイン・64スーパースパイン(TH5 800G)
リファレンスデザイン 1

レール最適化シングルポッド

各 GPU サーバには 8 つの NIC が搭載され、それぞれが「レール」 (専用の xCCL (NCCL / RCCL / oneCCL) 集合通信チャネル) に対応します。各レールは独自の専用リーフを持ち、各サーバの 8 つの NIC はすべて異なるリーフに収容されます。レール N をまたぐ AllReduce はリーフ N の内部に留まります。支配的な集合通信パターンではスパインに east-west 方向の負荷がかかりません。

レール最適化AIファブリック:8レール、8リーフ、共有スパインティア レール最適化型 AI ファブリックです。最下段に並ぶ 8 台の GPU サーバーには、それぞれ 8 つのレールリーフに対応した 8 枚の NIC があります。各サーバーの Rail-N は leaf-N に接続します。リーフの上段にあるスパイン ティアがレール間トラフィックを伝送します。支配的な AllReduce トラフィックは 1 つのレール内に留まり、スパインを経由することはありません。 Spine-1TH5 · 800G Spine-2TH5 · 800G Spine-3TH5 · 800G Spine-4TH5 · 800G Rail-1leaf Rail-2leaf Rail-3leaf Rail-4leaf Rail-5leaf Rail-6leaf Rail-7leaf Rail-8leaf GPU サーバー 1 8 × NIC・8 レール GPU サーバー 2 8 × NIC・8 レール GPU サーバー 3 8 × NIC・8 レール GPU サーバー 4 8 × NIC・8 レール RAIL-OPTIMIZED · 8 RAILS · INTRA-RAIL ALLREDUCE STAYS LOCAL

OcNOS構成要素: EVPN-VXLAN アンダーレイ、BGP unnumbered、全リーフでロスレス RoCEv2、スパインティアで DLB。Edgecore AS9736-64D (TH4) リーフおよび AIS800-64D / UfiSpace S9321-64E (TH5) スパインで検証済み。

スケジュールド対レールアラインド:スケール時に何が変わるか

レール最適化構成は、1,000~2,000 GPUのどこかでスケーリングが頭打ちになります。leaf段の収容ポート数が不足するか、spine段の過剰収容が深刻化するためです。それを超える規模では、最新のAIファブリックはすべてleaf/spine/super-spineの3段Closとなります。「scheduled」という呼称が指すのは、次の手法の採用です セルベースのスケジュールドファブリックスケジューリング or クレジットベースのスケジューリング Clos上に重ねて使用率を1.0へ近づける機能。まさにUECとGLBが実現するために設計されたもの。

リファレンスデザイン 2

3ステージClosスケジュールドファブリック:4,096~16,384 GPU

3階層:リーフ、スパイン、スーパースパイン。あらゆるGPUは他のいずれのGPUからも正確に4スイッチホップの距離。radixの計算が成立すればノンブロッキング。各ホップでDLB、OcNOS 7.1ではパス全体でGLB、UEC対応NIC上でUECパケットスプレーを実現。

3 段 Clos AI ファブリックのスケジュールドトポロジ 3ステージのClosトポロジ。最上層には4台のスーパースパインスイッチを表示。中間層には8台のスパインスイッチを表示。最下層にはGPUポッドへ接続する12台のリーフスイッチを表示。リーフからスパイン、スパインからスーパースパインへフルメッシュで接続。下部の帯のラベル:4096 GPUスケジュールドファブリック、全層でのDLB、OcNOS 7.1によるエンドツーエンドのGLB。 Super-Spine-1 Super-Spine-2 Super-Spine-3 Super-Spine-4 Spine-1 Spine-2 Spine-3 Spine-4 Spine-5 Spine-6 Spine-7 Spine-8 L1 L2 L3 L4 L5 L6 L7 L8 L9 L10 L11 L12 SUPER-SPINE SPINE LEAF GPU PODS 12ポッド・約340 GPU/ポッド・合計4,096 GPU・TH5・800G 3段Clos・4,096 GPU・全ホップDLB・E2E GLB(OcNOS 7.1)・UEC対応

OcNOS構成要素: eBGP unnumberedアンダーレイ、EVPN-VXLANマルチテナントオーバーレイ、RoCEv2ロスレス、全階層でのDLB、OcNOS 7.1系列でのエンドツーエンドGLB、観測性スタックへのgNMIストリーミングテレメトリ。全体を通じてTH5 64×800Gシャーシ上で検証済み。

分散学習向けのマルチ DC および DCI

単一のトレーニング実行が複数のデータホールにまたがる場合(兆パラメータ規模のモデルでは次第に一般的になっています)、ファブリックは WAN へと拡張されます。OcNOS-DC はスパイン上で 400G ZR / ZR+ コヒーレント光をそのままサポートし、トランスポンダー不要の DCI を実現するとともに、EVPN トンネル拡張により VXLAN テナントを拠点間で伝送します。

リファレンスデザイン 3

マルチDC AIファブリック:コヒーレントDCI

スパインに400G ZR/ZR+を用いて連結された2つのAIデータセンター。EVPN inter-DCがL2/L3テナント拡張を担い、各サイトの基盤となる3段Closは変わりません。

400G ZR/ZR+ DCI を用いたマルチ DC AI ファブリック 2つのAIデータセンター、それぞれがリーフ・スパインファブリックを備えます。2つのスパインはWANを越えて400G ZR/ZR+コヒーレント光で接続。EVPNインターDCトンネルがテナントを一方のサイトから他方へ拡張します。下段:トランスポンダー不要のコヒーレントDCI。 DATA CENTER A DATA CENTER B Spine-A1400G ZR+ Spine-A2400G ZR+ Spine-B1400G ZR+ Spine-B2400G ZR+ EVPN inter-DC · 400G ZR/ZR+ Leaf-A1 Leaf-A2 Leaf-A3 Leaf-B1 Leaf-B2 Leaf-B3 GPU ポッド・サイト A GPU ポッド・サイト B コヒーレントDCI · トランスポンダー不要 · EVPN DC間接続 · 400G ZR/ZR+

OcNOS構成要素: スパイン自体に400G ZR/ZR+プラガブルコヒーレント光、テナントL2/L3拡張のためのEVPN inter-DC、サイト間にわたるgNMIテレメトリ。外部トランスポンダーは不要です。

設計の目安

  • トポロジーをGPU数に合わせる。 最小規模のポッド(リーフ1台の NIC 基数未満):レールのみで十分。シングルポッド規模:レール最適化リーフ・スパイン。マルチポッド:3段 Clos が、オーバーサブスクリプションの妥協なくスケールする唯一の設計。
  • AI プレーンでは常に 1:1 オーバーサブスクリプション。 ストレージおよびCPUラックはより高いオーバーサブスクリプションで運用可能。GPUプレーンは不可。
  • レール数は配線の都合ではなく xCCL を起点に決定します。 8レールは、8-NIC GPUサーバー向けの現行デファクトスタンダードです。レールを少数のリーフに統合しないでください。
  • バッジではなく、電力と密度でシリコンを選択。 TH4(25.6T)とTH5(51.2T)が主力です。両者の選択は、ラック電力とブレイクアウトケーブルのコストによって決まります。
  • 設計段階からGLB/UECを見据えた計画を。 7.0ファブリックであっても初日からテレメトリプレーンを組み込んでおくことで、OcNOS 7.1のGLBアップグレードを純粋なソフトウェアステップにできます。以下を参照 GLB and Ultra Ethernet.
  • HCLに照らして検証。 ここで紹介する各リファレンスは、以下に記載のハードウェア上に構築: OcNOSハードウェア互換性リスト。そこから選択することで第一級のサポートを実現。

AIファブリックの設計をご検討ですか。ポート数の試算を一緒に進めましょう。

アーキテクチャレビューを予約 →