ダイナミックロードバランシング:AI Fabric向けアダプティブルーティング

静的ハッシュ方式のECMPは、GPUコレクティブではなくノースサウスのWebトラフィック向けに設計されたものです。OcNOS Dynamic Load Balancing(DLB)は、サブミリ秒間隔でフローレットを輻輳の少ない経路へ再割り当てし、分散トレーニングワークロードにおけるEthernetとInfiniBandの差を縮めます。

リーフスパインファブリックにおける Adaptive Routing

GPU AllReduce トラフィックを伝送する4 スパイン、2 リーフのスライス。DLB はローカルのイグレスキュー深度をリアルタイムで測定します。Spine-3 が飽和すると、リーフは次のフローレットを Spine-2 へ再バインドし、4 本のアップリンクすべてのバランスを保ちます。

AIリーフスパインファブリック全体にわたるダイナミックロードバランシング 4スパイン2リーフのAIファブリック。リーフに接続されたGPUサーバがAllReduceフローを送信します。3本のスパインパスがバランスのとれたフローレットを運びます。4本目のスパインは輻輳しており(赤)、Dynamic Load Balancingが次のフローレットを負荷の低いスパインへ再配置します。下部の帯にはDLBメトリクスを表示:キュー深度、ポート使用率、フローレット再バインド。 Spine-3が輻輳 → 次のフローレットをSpine-2に再バインド Spine-1 キュー 18% Spine-2 キュー 22% Spine-3 キュー 92% Spine-4 キュー 25% Leaf-1 DLB・フローレット Leaf-2 DLB・フローレット GPU-0 GPU-1 GPU-2 GPU-3 DLB・キュー深度フィードバック・フローレット再バインド・輻輳認識ECMP

静的ECMPがAIファブリックで破綻する理由

標準的なECMPは、フロー開始時に5-tupleをハッシュして出力ポートを選択し、そのフローを生存期間全体にわたって同一ポートに固定します。ノースサウスのWebトラフィックでは、数百万の短命なフローが大数の法則により経路間の使用率を平準化します。AIファブリックでは、ごく少数の エレファントフロー はGPUの集合通信(AllReduce、AllGather、All-to-All)に起因し、それぞれが400Gまたは800Gのアップリンク全体を数秒間にわたり占有します。同じアップリンクにハッシュされた2つのエレファントフローは、その処理の間ずっと衝突し続け、その一方で別のアップリンクはアイドル状態のままとなります。

その結果がハッシュ偏向(ポラライゼーション)です。実測のファブリック利用率は50~60%程度にとどまり、ランダムにホットスポットが発生し、テールレイテンシの外れ値がトレーニングジョブ全体を停滞させます。DLBは、ASICからのリアルタイムな出力キュー深度とポート利用率のテレメトリを用い、フローレット(小さなパケット間ギャップで区切られたサブフロー単位)ごとにパス決定を再評価することで、このギャップを解消します。

OcNOS の DLB 実装

フローレット検出

サブミリ秒ギャップタイマー

ASICネイティブのフローレット非アクティブタイマ(標準16~256 µs)が、長大なエレファントフローを、TCP/RoCEv2の並べ替えを起こさずに複数パスへ分散できる単位に分割します。

パス品質

キュー深度のリアルタイムフィードバック

DLBはTomahawkパイプラインから出力ポート単位のキュー占有率とリンク使用率のシグナルを取得し、すべてのECMPネクストホップをリアルタイムでスコアリング。

Re-bind

適応型ネクストホップ選択

フローレット境界において、最も品質の高いメンバーが選択されます。メンバー品質は数マイクロ秒ごとに再計算されるため、飽和したスパインは1フローレット以内に候補セットから除外されます。

Lossless

Co-tuned with PFC & ECN

DLBはRoCEv2ロスレススタック(PFC、ECN/DCQCN、ヘッドルーム計算)と統合され、ポーズフレームが上流へ伝播する前にフローレットの再バインドが実行されます。

テレメトリ

gNMIエクスポート

メンバー単位のリバインド回数、フローレットギャップ分布、メンバー品質スコアをgNMIダイヤルアウトでストリーミングし、クローズドループのファブリックチューニングを実現。

ハードウェア

TH4 / TH5 ネイティブ

Broadcom Tomahawk 4(25.6T)およびTomahawk 5(51.2T)スパインプラットフォーム上で、64×400Gおよび64×800Gのポート構成にて検証済み。ソフトウェアファストパスへの性能ペナルティはありません。

本番 AI ファブリックにおける DLB の提供価値

  • より高い使用率。 業界公表のflowlet再配分ベンチマークでは、同一ハードウェア上で、追加のアップリンクを購入することなく、静的ECMPでの約55%から90%超へとファブリック利用率が向上します。
  • より低いテール遅延。 他のリンクがアイドル状態のまま単一リンクが飽和することがないため、P99.9のコレクティブ完了時間が引き締まります。
  • 学習を高速化。 最も遅いランクを待つGPUのアイドル時間が減ることは、AllReduce負荷の高いワークロードにおける測定可能なウォールクロック改善を意味します。
  • NICの変更不要。 DLB はスイッチ ASIC 上で動作。既存の RoCEv2 NIC と xCCL (NCCL / RCCL / oneCCL) コレクティブスタックは、コード変更なしに正しい順序での配送を受けます。
  • ライセンスは1つ。 DLBはOcNOS-DC PLUS SKUに含まれる機能。同一イメージ、同一サポート契約、機能ごとの追加課金なし。

GPUファブリック向けにDLBをチューニング中ですか。ネットワークアーキテクトにご相談ください。

技術デモをリクエスト →