RoCEv2:AI ファブリック向けロスレスイーサネット
RDMA over Converged Ethernet v2は、最新のAIファブリック全体でGPUの集合通信トラフィックを伝送する技術です。OcNOSは、検証済みの400Gおよび800Gオープンハードウェア上で、RoCEv2の全ツールキット(PFC、ECN/DCQCN、適応型負荷分散、プライオリティ単位のテレメトリ)を実装します。
AIファブリックのレール型トポロジー
コンパクトなレールスライス:2スパインと2リーフが4基の GPU 間で RoCEv2 を運搬。PFC ポーズフレームは輻輳時にホップバイホップで伝播し、ECN は DCQCN がソースで反応するためにエレファントフローをマーキング。
AI/MLファブリックにとってRoCEv2が重要な理由
GPUコレクティブ(all-reduce、all-gather、all-to-all)が生成する エレファントフロー これらは単一のファブリックパスを飽和させ、トレーニングジョブの効率を維持するためにほぼゼロの損失を要求する。400G RoCEv2リンク上で1パケットでもドロップすると、該当するNICはRDMA送信ウィンドウ全体を再送し、これはGPUのアイドル時間として秒単位で計測される。RoCEv2は、PFC(Priority Flow Control)、ECN(Explicit Congestion Notification)、DCQCN(Data Center Quantized Congestion Notification)という3本の柱により、leaf-spineファブリックをこれらのワークロード向けのロスレストランスポートへと変える。
OcNOSのRoCEv2実装
優先度別ポーズ
設定可能な優先度キューでの802.1Qbb PFCと、ウォッチドッグタイマーを組み合わせ、デッドロック状態を検出して伝播前に自動復旧。
アダプティブマーキング
キューごとの WRED ベース ECN マーキングと DCQCN リアクションポイントフィードバック。xCCL (NCCL / RCCL / oneCCL) コレクティブワークロード向けにチューニング済みデフォルト、カスタム RDMA スタック向けにパラメトリックオーバーライドを提供。
アダプティブフローレット
Dynamic Load Balancing(DLB)は、リンク飽和時にサブミリ秒間隔でflowletを再配置します。対称トポロジーを損なう静的ハッシングの衝突を排除します。
優先度ごとのキュー統計
キュー深度、PFCポーズカウンター、ECNマーク済みパケット、マイクロバースト検出向けのgNMIストリーミングセンサーを、1秒粒度でエクスポート。
レール最適化ファブリック
レールアラインドおよびスケジュールドファブリックトポロジー向けに検証済み。市販の400Gおよび800Gオープンスイッチを用いた256~4,096 GPUクラスタ向けのレシピを提供。
ロスレス検証
既知の正常なロスレス構成をエンドツーエンドで検証するCLI診断:PFCヘッドルームの計算、ECN閾値の妥当性確認、合成インキャストテスト。
OcNOSで得られるもの
- オープンなハードウェアの選択。 UfiSpace、Edgecore、Wedge、Celesticaの各プラットフォーム上で同一のNOSイメージによりRoCEv2を稼働:ファブリック層にベンダーロックインなし。
- 初日からの機能パリティ。 アダプティブLB、DCQCNチューニング、ASICネイティブテレメトリは有償アドオンではありません。これらはベースのOcNOS-DCライセンスの一部です。
- リファレンスデザイン。 主要なAIファブリックトポロジー向けの検証済みコンフィグ。コンフィグと試験結果の両方を公開。
- エンジニアリングアクセス。 プレミアムサポートティアには、ファブリック立ち上げ時のOcNOS RoCEv2チームとの直接対話が含まれます。