OcNOS-DC · 800G · RoCEv2 · PFC / ECN / DLB · 24/7 SLA

AI ファブリック & ロスレス RoCEv2

GPUクラスタの性能は、それを結ぶネットワーク次第です。OcNOS-DCは検証済みオープンハードウェア上で本番品質の800GロスレスRoCEv2ファブリックを提供し、AI投資にふさわしいキャリアグレードSLAを伴います。

51.2 Tbps
Max switch throughput (TH5)
800G
Native port speed — Broadcom TH5
PFC + ECN
Lossless DCB stack — RoCEv2 ready
24/7
Carrier-grade global SLA
課題

1 つのパケットドロップでジョブ内のすべての GPU が停滞します。

RDMAでは再送は行われません。AllReduce における単一のパケットドロップでも、クラスタ内の全 GPU にわたる集合演算全体を再実行させます。ネットワークはロスレスでなければならず、そうでなければクラスタは本来の性能を十分に引き出せません。

OcNOS-DC は対応する全 Broadcom ASIC 上で RoCEv2 向けに事前チューニング済みで出荷される。 PFC ECN ETS DCBX DLB — Day 1 から正しく構成、オープンハードウェア上で動作。

リファレンスアーキテクチャ

800G スパイン-リーフ AI ファブリック — ロスレス RoCEv2

eBGPアンナンバードのアンダーレイ、各層でのECMP、優先度グループ単位で調整されたPFC/ECNを備えた3段Closファブリック。ラックレベルの各リーフスイッチは起動時にZTPで自動プロビジョニングされます。

800G AI fabric topology with full-mesh eBGP and isolated OOB management Horizontal 800G AI fabric. Three GPU racks on the left feed two leaf VTEPs running OcNOS-DC, which connect to two 51.2 Tbps spines over a full-mesh eBGP ECMP underlay with DLB. An isolated out-of-band management bus across the top carries ZTP and telemetry. Leaf-attached NVMe-oF/NFS GPU storage sits to the right. 分離 OOB 管理バス OOB Mgmt 分離されたネットワーク ZTP · テレメトリ GPU Rack 1 8× GPU nodes RoCEv2 / RDMA GPU Rack 2 8× GPU nodes RoCEv2 / RDMA GPU Rack 3 8× GPU nodes RoCEv2 / RDMA Leaf-01 OcNOS-DC 64 × 400G Tomahawk 4 PFC / DCBX / ZTP LOSSLESS RoCEv2 MLAG PEER Leaf-02 OcNOS-DC 32 × 400G Tomahawk 3 PFC / DCBX / ZTP LOSSLESS RoCEv2 eBGP ECMP フルメッシュ Spine-01 OcNOS-DC 51.2 Tbps · DLB eBGP · ECMP · DLB Spine-02 OcNOS-DC 51.2 Tbps · DLB eBGP · ECMP · DLB GPU Storage NVMe-oF / NFS RDMA-optimized OcNOS-DC — AI ファブリック — 水平 CLOS · PFC · ECN · DLB · 800G
OcNOS-DC leaf/spine
OcNOS-DC spine (DLB)
GPU servers / storage

Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl

600+オペレーター導入
60+
26ネットワーク業界での年数
技術アーキテクチャ

OcNOS-DC に組み込まれた 4 層のロスレス性。

AIファブリックの障害の多くは、単一のPFC優先度グループの設定ミス、あるいはRDMAではなくクラウドワークロード向けに設定されたECNしきい値に起因。OcNOS-DCはサポート対象の各Broadcom ASIC向けにRoCEv2で検証済みのバッファプロファイルを同梱しており、Day-1設定が試行錯誤ではなく最初から正しい状態で開始可能。

PFC + ECN — 優先度グループによるロスレス制御

PFC(Priority Flow Control)は、バッファオーバーフロー前に優先度ごとにトラフィックをポーズします。ECNはパケットに早期マーキングを行い、送信側の速度制御を促します。両者を組み合わせることで、ポート全体を停止させずにドロップを防止可能。OcNOS-DCはルーテッドAIファブリック向けにL3上のPFCをサポートします。

動的ロードバランシング (DLB) — フローレベルの ECMP

通常のコンシステントハッシュECMPでは、多数のGPU間フローが同一スパインリンクで衝突するとホットスポットが発生します。OcNOS-DCのDLBはリアルタイムでキュー深度を監視し、エレファントフローを負荷の少ない経路に無瞬断で再割り当てします — AllReduce実行中にファブリック利用率を最大化します。

DCBX — サーバー対スイッチの自動構成

DCB Exchange Protocol(DCBX)は LLDP 上で動作し、OcNOS-DC Leaf スイッチから接続された GPU サーバーへ適切な PFC および ETS 設定を自動配信 — ロスレス性を静かに損なう手動設定ミスのリスクを排除。

gNMI on-change テレメトリ — PFC カウンター可視化

PFCポーズカウンタ・ECNマーキングレート・優先度ごとのバッファ深度はgNMIセンサーパスとして公開され、on-changeサブスクリプションに対応。PrometheusやGrafanaに直接フィードし、輻輳イベントをミリ秒単位で検出 — 学習停止に波及する前に対処可能。

ai-leaf01 — gNMI ロスレスファブリックテレメトリ ストリーミング
$gnmic subscribe --path /qos/pfc/ \
--mode ON_CHANGE --encoding proto
RoCEv2 Priority Group 3 — real-time
et-0/0/1 PG3 PFC-Rx: 0 Tx: 0 ドロップ: 0
et-0/0/2 PG3 PFC-Rx: 0 Tx: 0 ドロップ: 0
et-0/0/3 PG3 PFC-Rx: 0 Tx: 0 ドロップ: 0
$gnmic subscribe --path /interfaces/counters/
et-0/0/1 in: 780 Gbps out: 776 Gbps
et-0/0/2 in: 795 Gbps out: 791 Gbps
→ Telegraf → Prometheus → Grafana
✓ ロスレス — 0 ドロップ — ファブリック正常

検証済み AI ファブリックプラットフォーム

AIS800-64D
Edgecore — Spine
800GTH5
S9321-64E
UfiSpace — Spine
800GTH5
AS9736-64D
Edgecore — Leaf
400G / 25.6T
AS9716-32D
Edgecore
400G / 12.8T

40+ validated platforms — HCL 全件 →

オープン vs プロプライエタリ

オペレーターが AI ファブリックをオープンハードウェアに移行している理由。

独自AIスイッチベンダーは、多くの場合、オープンODMハードウェアで利用可能な同一のBroadcom商用シリコンを採用したスイッチングASICに対してプレミアム価格を課しています。OcNOS-DCは同等のロスレスRoCEv2性能を、ロックインなしで提供。

❌ Proprietary Vendor

ハードウェアとソフトウェアをバンドル — 更新サイクルごとに両方のベンダーマージンを払うことに。

PFC/ECNプロファイルはベンダー側でチューニングされ、運用者には公開されません。検証不可能なデフォルト設定に依存することになります。

単一ベンダーの ECMP 実装 — DLB なし、または特定の独自プロトコルに固定された DLB。

独自仕様のテレメトリスタック — データはベンダー自身の可観測性製品にのみ流入。

サポートには同一ベンダーのハードウェア契約とソフトウェア契約が別個に必要です。

✓ オープンハードウェア上の OcNOS-DC

ハードウェアはEdgecoreまたはUfiSpace、ソフトウェアはIP Infusionが提供。これらを統合したSLAは1本だけで、ベンダーとの取引関係を2つ減らせます。

Broadcom Tomahawkのバッファプロファイルは完全に設定可能で、ドキュメント化されています。プラットフォームごとに検証済みのPFC/ECN設定がOcNOS-DCに付属します。

OcNOS-DC標準搭載のDLB(動的ロードバランシング) — リアルタイムでキュー深度を監視し、フローを無瞬断で再割り当てします。

gNMIのon-changeサブスクリプションに対応 — PFC/ECN/バッファのデータをすべて、標準的なPrometheus、InfluxDB、OpenTelemetryのパイプラインに流し込めます。

IP Infusionの単一サポート契約により、ソフトウェア、TAC、ハードウェアRMA調整をグローバルに24時間365日カバーします。

導入シナリオ

OcNOS AI ファブリックの現在の導入先。

ユースケース 01

GPU 高密度な AI 学習クラスタ

分散ジョブを実行する大規模GPU学習クラスタには、すべてのGPU間経路で一貫したレイテンシを保つノンブロッキングなロスレスファブリックが必要です。OcNOS-DCは800Gのスパイン・リーフトポロジでPFC/ECNとDLBを提供し、AllReduceの集合通信が再起動することなく完了するよう保証します。

ユースケース 02

大規模 AI 推論

リアルタイムAPIエンドポイントを提供する高スループット推論クラスタに不可欠な、GPUノード間の予測可能な低レイテンシ経路。OcNOS-DCのETSスケジューリングにより、推論トラフィックがバッチジョブの後ろにキューイングされることはなく、ストリーミングテレメトリがフロー単位の可視性を提供。本番環境でのレイテンシ劣化を即時検知。

ユースケース 03

GPUaaS / クラウド AI

テナントにGPUコンピュートを提供するクラウドプロバイダに必要とされる、ロスレスRoCEv2とマルチテナントファブリック分離の両立。OcNOS-DCはEVPN-VXLANテナント分離とRoCEv2ロスレススタックを、同一ハードウェア上の単一NOSインスタンスで実現。

始める

お持ちのトポロジーを共有ください。最適な道筋をご提案します。

IPIのデモはすべて、OcNOSの本番運用経験を持つネットワークアーキテクトが実施します — スライドも営業的演出もなし。お客様固有のAIファブリックトポロジを題材に、実際の設定をウォークスルーします。

よくある技術的な質問

AI Fabric with OcNOS-DC

RoCEv2 とは何か、なぜロスレスイーサネットファブリックが必要なのか?
RoCEv2(RDMA over Converged Ethernet v2)は CPU を介さない GPU 間の直接メモリ転送を実現し、AllReduce や AllGather などの AI 集合演算におけるソフトウェアオーバーヘッドを排除。TCP と異なり RDMA に再送機構はなく、たった一つのパケットドロップが演算全体を停止させ、参加する全 GPU で再起動を強いる。Priority Flow Control(PFC)と Explicit Congestion Notification(ECN)を用いたロスレスファブリックは、本番 AI トレーニング環境における必須要件。OcNOS-DC は RoCEv2 トラフィッククラス向けに事前調整されたバッファプロファイルを標準搭載。
OcNOS-DC は AI ファブリックでどのようにパケットロスゼロを保証するのか?
OcNOS-DC は完全な Data Center Bridging(DCB)スタックを実装:PFC(Priority Flow Control)はバッファあふれ前にプライオリティグループ単位でトラフィックを一時停止、ECN(Explicit Congestion Notification)はパケットに早期マーキングを付与して受信側に減速を通知、ETS(Enhanced Transmission Selection)は AI/RDMA フローが優先度の低いトラフィックの後ろにスケジュールされないことを保証。これらの 3 つのメカニズムを Broadcom Tomahawk ASIC 上のポート単位バッファチューニングと組み合わせることで、決定論的なロスレス環境を実現。ルーテッド境界をまたぐファブリック向けに PFC over L3 もサポート。
Dynamic Load Balancing(DLB)とは何か、なぜ AI ワークロードにとって重要なのか?
標準的な Equal-Cost Multi-Path(ECMP)はコンシステントハッシュでフローをアップリンクに振り分けるが、多数の GPU フローが同一スパインリンクに集中するとホットスポットを生む。OcNOS-DC の Dynamic Load Balancing(DLB)はリアルタイムキュー深度を監視し、非破壊的にフローを混雑の少ないリンクへ再割り当て。すべての GPU が他の GPU と同時に通信する AllReduce パターンにおいて、DLB は PFC ポーズストームを引き起こし Job Completion Time(JCT)を劣化させる帯域幅の偏りを防止。
OcNOS AI Fabric はどの規模に対応するのか?
OcNOS-DC は 400G および 800G の Leaf-Spine ファブリックをサポート。Edgecore AIS800-64D や UfiSpace S9321-64E などの Broadcom Tomahawk 5 ベースのスパインプラットフォームでは、各スパインスイッチが 64 × 800G ポートで最大 51.2 Tbps のノンブロッキングスループットを提供。Leaf スイッチは Edgecore AS9736-64D などの Tomahawk 4 プラットフォームを 400G / 25.6 Tbps で運用し、本番 AI ファブリックで期待される標準的なオーバーサブスクリプション比を実現。ZTP(Zero Touch Provisioning)と eBGP アンナンバードアンダーレイを伴う 3 段 Clos トポロジーは大規模 GPU クラスターにスケール。プラットフォーム別の完全な SKU サポートは Feature Matrix ページに記載。
OcNOS AI Fabric は NVIDIA Spectrum-X や Cisco などの独自仕様ソリューションとどう比較されるのか?
OcNOS-DCは、多くの独自AIスイッチ製品の内部で使われているBroadcom Tomahawk商用シリコンを、EdgecoreおよびUfiSpaceのオープンODMハードウェア上で動作させます。これによりポートごとのライセンスプレミアムとベンダーロックインを排除。事業者は同等のRoCEv2ロスレス性能(PFC、ECN、ETS、DLB)を、IP Infusionの24時間365日キャリアグレードSLAと透明性の高いSKUモデルとともに享受可能。オープンハードウェアへの移行で生まれる資金は、追加GPU容量への再投資が可能です。
OcNOS-DC は AI ファブリック運用向けの自動化とテレメトリに対応しているのか?
対応しております。OcNOS-DC は、サーバー-スイッチ間の RoCEv2 設定自動化のための DCBX(DCB Exchange Protocol)、ゼロタッチラックオンボーディングのための IPv4 / IPv6 上の ZTP、on-change サブスクリプションを伴う gNMI ストリーミングテレメトリをサポート。PFC ポーズカウンター、ECN マーキングレート、プライオリティ単位のバッファ深度はすべて gNMI センサーパスとして公開され、Prometheus、InfluxDB、または任意の OpenTelemetry パイプラインから直接利用可能。Day-0 から Day-2 までの自動化のために Ansible プレイブックおよび Terraform プロバイダーを提供。