RoCEv2:AI ファブリック向けロスレスイーサネット

RDMA over Converged Ethernet v2は、最新のAIファブリック全体でGPUの集合通信トラフィックを伝送する技術です。OcNOSは、検証済みの400Gおよび800Gオープンハードウェア上で、RoCEv2の全ツールキット(PFC、ECN/DCQCN、適応型負荷分散、プライオリティ単位のテレメトリ)を実装します。

AIファブリックのレール型トポロジー

コンパクトなレールスライス:2スパインと2リーフが4基の GPU 間で RoCEv2 を運搬。PFC ポーズフレームは輻輳時にホップバイホップで伝播し、ECN は DCQCN がソースで反応するためにエレファントフローをマーキング。

PFCとロスレスRDMAを備えたRoCEv2リーフスパインAI Fabric 4台のGPUサーバー間でロスレスなRoCEv2 RDMAトラフィックを伝送する、2スパイン2リーフのAIファブリック。PFCポーズの矢印は、RDMAトラフィックを伝送するキューを保護する優先度ベースのフロー制御を示しています。 PFC ポーズ(CoS 3) Spine-1 ECN · WRED Spine-2 ECN · WRED Leaf-1 PFC · DCQCN Leaf-2 PFC · DCQCN GPU-0 GPU-1 GPU-2 GPU-3 PFC + ECN + DCQCN · ADAPTIVE LB · PER-PRIORITY TELEMETRY

AI/MLファブリックにとってRoCEv2が重要な理由

GPUコレクティブ(all-reduce、all-gather、all-to-all)が生成する エレファントフロー これらは単一のファブリックパスを飽和させ、トレーニングジョブの効率を維持するためにほぼゼロの損失を要求する。400G RoCEv2リンク上で1パケットでもドロップすると、該当するNICはRDMA送信ウィンドウ全体を再送し、これはGPUのアイドル時間として秒単位で計測される。RoCEv2は、PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)、DCQCN(Data Center Quantized Congestion Notification)という3本の柱により、leaf-spineファブリックをこれらのワークロード向けのロスレストランスポートへと変える。

OcNOSのRoCEv2実装

PFC

優先度別ポーズ

設定可能な優先度キューでの802.1Qbb PFCと、ウォッチドッグタイマーを組み合わせ、デッドロック状態を検出して伝播前に自動復旧。

ECN + DCQCN

アダプティブマーキング

キューごとの WRED ベース ECN マーキングと DCQCN リアクションポイントフィードバック。xCCL (NCCL / RCCL / oneCCL) コレクティブワークロード向けにチューニング済みデフォルト、カスタム RDMA スタック向けにパラメトリックオーバーライドを提供。

ロードバランシング

アダプティブフローレット

Dynamic Load Balancing(DLB)は、リンク飽和時にサブミリ秒間隔でflowletを再配置します。対称トポロジーを損なう静的ハッシングの衝突を排除します。

テレメトリ

優先度ごとのキュー統計

キュー深度、PFCポーズカウンター、ECNマーク済みパケット、マイクロバースト検出向けのgNMIストリーミングセンサーを、1秒粒度でエクスポート。

Topology

レール最適化ファブリック

レールアラインドおよびスケジュールドファブリックトポロジー向けに検証済み。市販の400Gおよび800Gオープンスイッチを用いた256~4,096 GPUクラスタ向けのレシピを提供。

Diagnostics

ロスレス検証

既知の正常なロスレス構成をエンドツーエンドで検証するCLI診断:PFCヘッドルームの計算、ECN閾値の妥当性確認、合成インキャストテスト。

OcNOSで得られるもの

  • オープンなハードウェアの選択。 UfiSpace、Edgecore、Wedge、Celesticaの各プラットフォーム上で同一のNOSイメージによりRoCEv2を稼働:ファブリック層にベンダーロックインなし。
  • 初日からの機能パリティ。 アダプティブLB、DCQCNチューニング、ASICネイティブテレメトリは有償アドオンではありません。これらはベースのOcNOS-DCライセンスの一部です。
  • リファレンスデザイン。 主要なAIファブリックトポロジー向けの検証済みコンフィグ。コンフィグと試験結果の両方を公開。
  • エンジニアリングアクセス。 プレミアムサポートティアには、ファブリック立ち上げ時のOcNOS RoCEv2チームとの直接対話が含まれます。

AIファブリックの構築や拡張をご検討ですか。ネットワークアーキテクトにご相談ください。

技術デモをリクエスト →