AI ファブリック & ロスレス RoCEv2
GPUクラスタの性能は、それを結ぶネットワーク次第です。OcNOS-DCは検証済みオープンハードウェア上で本番品質の800GロスレスRoCEv2ファブリックを提供し、AI投資にふさわしいキャリアグレードSLAを伴います。
1 つのパケットドロップでジョブ内のすべての GPU が停滞します。
RDMAでは再送は行われません。AllReduce における単一のパケットドロップでも、クラスタ内の全 GPU にわたる集合演算全体を再実行させます。ネットワークはロスレスでなければならず、そうでなければクラスタは本来の性能を十分に引き出せません。
OcNOS-DC は対応する全 Broadcom ASIC 上で RoCEv2 向けに事前チューニング済みで出荷される。 PFC ECN ETS DCBX DLB — Day 1 から正しく構成、オープンハードウェア上で動作。
800G スパイン-リーフ AI ファブリック — ロスレス RoCEv2
eBGPアンナンバードのアンダーレイ、各層でのECMP、優先度グループ単位で調整されたPFC/ECNを備えた3段Closファブリック。ラックレベルの各リーフスイッチは起動時にZTPで自動プロビジョニングされます。
Hover nodes for capability and platform details · Full HCL: 40+ validated platforms at ipinfusion.com/hcl
OcNOS-DC に組み込まれた 4 層のロスレス性。
AIファブリックの障害の多くは、単一のPFC優先度グループの設定ミス、あるいはRDMAではなくクラウドワークロード向けに設定されたECNしきい値に起因。OcNOS-DCはサポート対象の各Broadcom ASIC向けにRoCEv2で検証済みのバッファプロファイルを同梱しており、Day-1設定が試行錯誤ではなく最初から正しい状態で開始可能。
PFC + ECN — 優先度グループによるロスレス制御
PFC(Priority Flow Control)は、バッファオーバーフロー前に優先度ごとにトラフィックをポーズします。ECNはパケットに早期マーキングを行い、送信側の速度制御を促します。両者を組み合わせることで、ポート全体を停止させずにドロップを防止可能。OcNOS-DCはルーテッドAIファブリック向けにL3上のPFCをサポートします。
動的ロードバランシング (DLB) — フローレベルの ECMP
通常のコンシステントハッシュECMPでは、多数のGPU間フローが同一スパインリンクで衝突するとホットスポットが発生します。OcNOS-DCのDLBはリアルタイムでキュー深度を監視し、エレファントフローを負荷の少ない経路に無瞬断で再割り当てします — AllReduce実行中にファブリック利用率を最大化します。
DCBX — サーバー対スイッチの自動構成
DCB Exchange Protocol(DCBX)は LLDP 上で動作し、OcNOS-DC Leaf スイッチから接続された GPU サーバーへ適切な PFC および ETS 設定を自動配信 — ロスレス性を静かに損なう手動設定ミスのリスクを排除。
gNMI on-change テレメトリ — PFC カウンター可視化
PFCポーズカウンタ・ECNマーキングレート・優先度ごとのバッファ深度はgNMIセンサーパスとして公開され、on-changeサブスクリプションに対応。PrometheusやGrafanaに直接フィードし、輻輳イベントをミリ秒単位で検出 — 学習停止に波及する前に対処可能。
検証済み AI ファブリックプラットフォーム
40+ validated platforms — HCL 全件 →
オペレーターが AI ファブリックをオープンハードウェアに移行している理由。
独自AIスイッチベンダーは、多くの場合、オープンODMハードウェアで利用可能な同一のBroadcom商用シリコンを採用したスイッチングASICに対してプレミアム価格を課しています。OcNOS-DCは同等のロスレスRoCEv2性能を、ロックインなしで提供。
❌ Proprietary Vendor
ハードウェアとソフトウェアをバンドル — 更新サイクルごとに両方のベンダーマージンを払うことに。
PFC/ECNプロファイルはベンダー側でチューニングされ、運用者には公開されません。検証不可能なデフォルト設定に依存することになります。
単一ベンダーの ECMP 実装 — DLB なし、または特定の独自プロトコルに固定された DLB。
独自仕様のテレメトリスタック — データはベンダー自身の可観測性製品にのみ流入。
サポートには同一ベンダーのハードウェア契約とソフトウェア契約が別個に必要です。
✓ オープンハードウェア上の OcNOS-DC
ハードウェアはEdgecoreまたはUfiSpace、ソフトウェアはIP Infusionが提供。これらを統合したSLAは1本だけで、ベンダーとの取引関係を2つ減らせます。
Broadcom Tomahawkのバッファプロファイルは完全に設定可能で、ドキュメント化されています。プラットフォームごとに検証済みのPFC/ECN設定がOcNOS-DCに付属します。
OcNOS-DC標準搭載のDLB(動的ロードバランシング) — リアルタイムでキュー深度を監視し、フローを無瞬断で再割り当てします。
gNMIのon-changeサブスクリプションに対応 — PFC/ECN/バッファのデータをすべて、標準的なPrometheus、InfluxDB、OpenTelemetryのパイプラインに流し込めます。
IP Infusionの単一サポート契約により、ソフトウェア、TAC、ハードウェアRMA調整をグローバルに24時間365日カバーします。
OcNOS AI ファブリックの現在の導入先。
GPU 高密度な AI 学習クラスタ
分散ジョブを実行する大規模GPU学習クラスタには、すべてのGPU間経路で一貫したレイテンシを保つノンブロッキングなロスレスファブリックが必要です。OcNOS-DCは800Gのスパイン・リーフトポロジでPFC/ECNとDLBを提供し、AllReduceの集合通信が再起動することなく完了するよう保証します。
大規模 AI 推論
リアルタイムAPIエンドポイントを提供する高スループット推論クラスタに不可欠な、GPUノード間の予測可能な低レイテンシ経路。OcNOS-DCのETSスケジューリングにより、推論トラフィックがバッチジョブの後ろにキューイングされることはなく、ストリーミングテレメトリがフロー単位の可視性を提供。本番環境でのレイテンシ劣化を即時検知。
GPUaaS / クラウド AI
テナントにGPUコンピュートを提供するクラウドプロバイダに必要とされる、ロスレスRoCEv2とマルチテナントファブリック分離の両立。OcNOS-DCはEVPN-VXLANテナント分離とRoCEv2ロスレススタックを、同一ハードウェア上の単一NOSインスタンスで実現。
AI ファブリック向けリソース。
OcNOS のロスレス RoCEv2 ファブリックのアーキテクチャ、SKU、検証済みプラットフォーム。
OcNOS 800G イーサネットベースのロスレス AI ファブリック
Tomahawk 4/5スパイン上のノンブロッキングRoCEv2ファブリック — SKUティア、検証済みプラットフォーム、導入アーキテクチャ。
ダウンロード → ソリューション概要 · PDFEVPN-VXLAN データセンターファブリック
キャリアグレードのリーフ・スパイン型データセンターファブリック:対称型IRB、Type-2/Type-5ルート、分散エニーキャストゲートウェイ。
ダウンロード → 導入事例本番 AI & DC 展開
キャリアグレードのワークロードを本番運用する事業者による、実際のOcNOSデータセンターおよびAIファブリック導入事例。
閲覧 →お持ちのトポロジーを共有ください。最適な道筋をご提案します。
IPIのデモはすべて、OcNOSの本番運用経験を持つネットワークアーキテクトが実施します — スライドも営業的演出もなし。お客様固有のAIファブリックトポロジを題材に、実際の設定をウォークスルーします。
DC 戦略を完成させる。
AI Fabricはコンピュート層を担い、DC FabricとDCIはオープンネットワーキング戦略をデータセンター全体およびサイト間にまで拡張します。