AIS800-64D
- Ports
- 64 × QSFP-DD800ブレイクアウト:2×400/4×200/8×100(論理320ポート)
- Form
- 2RU
- Power
- 2× 3000 W AC/DC 冗長QSFP-DDケージあたり30W
- CPU
- Intel Xeon D1713NTE
GPUクラスター向けAIファブリック。AIファブリックSKU構成のEdgecore DCS560シャーシ。
Edgecore AIS800-64D、UfiSpace S9321-64E および S9321-64EO:同一のシリコン、同一の OcNOS-DC イメージ、3 つの調達経路。Tomahawk 5 スイッチを選定するエンジニア向けの仕様、判断基準、OcNOS-DC 機能群。
2つのハードウェア設計、4つのSKU。4つすべてがONIEプリロード済みで出荷され、同一のOcNOS-DCイメージで動作します。違いはフォームファクタ(QSFP-DD対OSFP)、ブランディング(AIファブリックSKU対汎用DC SKU)、そして導入がどの光モジュールエコシステムを中心に構築されているかという点にあります。各カードはベンダーの完全なデータシート(PDF、ローカルホスティング)にリンクしています。
GPUクラスター向けAIファブリック。AIファブリックSKU構成のEdgecore DCS560シャーシ。
大規模で低エントロピーのAI/MLフロー。UfiSpaceは、TH5のアダプティブルーティングが設計の中核となるAllReduce主体のトラフィック向けに64Eを訴求。
800G ZR/ZR+コヒーレントやその他の高電力モジュールクラス。64EのOSFPフォームファクタ:光モジュールがケージ選択を左右する場合に選択。
The BCM78900 は51.2 Tbpsのスイッチング容量を提供する単一の5 nmモノリシックダイであり、800GbE 64ポート、400G 128ポート、または200G 256ポートをネイティブに供給します。Broadcom初の5 nmマーチャントスイッチICであり、ケージで800GbEをサポートした世界初の製品でした。 100G PAM4で動作する512本のSerDesレーン:Tomahawk 4と同じレーン数で、レーンあたりの速度は2倍。
生のキャパシティにとどまらず、3つのアーキテクチャ上の選択がTH5を大半の本番AIファブリックを支えるシリコンたらしめました: 共有バッファアーキテクチャ xCCL (NCCL / RCCL / oneCCL) コレクティブのマイクロバーストをハードウェアで吸収 コグニティブルーティング (DLB)はエレファントフローをASIC内で再バインドし、5 nmの熱ヘッドルームにより30 W QSFP-DD800ケージをポート単位のアクティブ冷却なしで動作可能に。
Broadcom 公開資料に対して検証可能な仕様 BCM78900製品ページ.
見出しの数字は報道を集めます。しかし、AIファブリックのアーキテクトが実際に重視するのは、この4つのエンジニアリング上の選択です。
TH5はTH4と同じ512本のSerDesレーンを備え、50Gではなく100G PAM4で動作させます。スループットの倍増は、新規インフラの追加ではなく既存インフラの高速化によって実現されました。
100G PAM4・106 Gbps全 64 ポートに共通のパケットメモリプール、ポートごとに分割されません。1 ポート上の xCCL AllReduce マイクロバーストはファブリック全体のプールに吸収され、テールドロップを引き起こしません。TH5 が RoCEv2 で勝つ理由を一文で言えばこれです。
Shared-buffer · RDMA-tunedBroadcom Cognitive Routingは輻輳パスを検出し、エレファントフローをASIC内で再バインドします:コントローラーへの往復もECMP再ハッシュも不要。OcNOS-DCはこれをDLB Reactive-Path Rebalanceとして有効化します。
DLB ・ 64 µs フローレット業界初の5nmマーチャントシリコンスイッチIC。このプロセス微細化こそが、高出力800G光モジュールや8×100Gブレイクアウトを含め、ポート単位のアクティブ冷却なしにQSFP-DD800ケージあたり30 Wを実現可能にしました。
TSMC N5 · 30 W/port率直な評価: TH4 (25.6 Tbps · 64×400G · 7 nm) は 400G NIC ベースのクラスタには依然として優秀です。TH5 がラックを占めるだけの価値を持つのは、ポートあたり 800G と AI ファブリックの各種プリミティブが共に求められる場合です。
同じラックフットプリントで2倍。同じ2RU、同じ電力エンベロープクラス。
IPI の実プラットフォームでも同じ 64 ポートのラディックス (AS9736-64D → AIS800-64D / S9321)。ポートあたり帯域が倍増するため、Clos 各ティアは 2 倍のトラフィックを収容します。
初の5nmマーチャントスイッチIC。アクティブ冷却なしで30 W/ポートに対応する熱的余裕。
同じ512レーンで速度は2倍。スループットの倍増は既存インフラから実現。
Tomahawk 5はハードウェアを備えています。NOSの役割は、それをオペレーター、テレメトリパイプライン、クラスタスケジューラに対して、CLIの曲芸を強いることなく公開することです。OcNOS-DCは、これらのプリミティブをYANGモデル化された状態を持つ第一級の構成可能オブジェクトとして提供します。
OcNOS-DC は PFC + ETS + Dynamic ECN を xCCL 集合通信パターン向けに事前チューニングして提供。コミュニティ NOS のファブリックを機能停止に追い込む AllReduce マイクロバースト下でもテールレイテンシは抑えられます。TH5 の共有バッファプールは、分割バッファチップではテールドロップする同期多対一トラフィックを吸収します。
エレファントフロー下でのECMPハッシュ衝突は、AIファブリックにとって致命的です。OcNOS-DCはTH5 Cognitive Routingのフローレット再バインドを有効化し、AllReduceトラフィックをすべてのスパインパスへ自動的に分散させます。
トレーニングジョブをハングさせる前にpaused-queueサイクルを検知。オペレーターの介入なしに自動復旧します。
バッファ深度、ECNマーク、PFCポーズ回数:各閾値がつまみとなり、各カウンタがセンサーパスとなる。Prometheus、Grafana、OTelに連携。
TH5スパインは本物のルーターでもあります。同一シリコン上の完全なキャリアグレードのLayer 3スタック:AIファブリックをブラックボックスとしてではなく、ネットワーク全体の一部として運用可能。
Layer 3ルーティング・L1/L2・AI/MLファブリックプリミティブ・マルチキャスト・QoS・セキュリティ・ハードウェア・マネジメント。各項目は公開マトリクス上でプラットフォームごとに検証可能。
ゼロタッチプロビジョニングでラック内のTH5スパインを立ち上げ。すべてのカウンターをオブザーバビリティスタックへストリーミング。YANGモデル化された設定であらゆるしきい値をチューニング。グルースクリプトは不要です。
同一のTH5ダイ、同一のOcNOS-DCイメージで、同じアーキテクチャ上の問いを3通りに捉え直します。すなわち、スタック全体を単一ベンダーに固定することなく、いかにロスレスな東西通信をスケールさせるかという問いです。
「リーフまでの800G、ロスレスRoCEv2、そしてAllReduce下でも破綻しないテールレイテンシが必要です。シングルベンダーロックインは論外です。」
TH5 64×800Gスパイン、xCCLチューニングされたDCQCNを備えたRoCEv2、サブミリ秒のDLBリバインディング、PFCデッドロックウォッチドッグ。TH4と同じ64ポートのradixながら各スパインポートが800Gを伝送し、同一の総ファブリック帯域幅に対してスパイン・リーフ間の配線量を半減。
DC・AI Fabric SKU「お客様はGPUを選定する。当社のファブリックBoMを彼らのNIC選択に縛り付けることはできない。最低でも2ベンダーから購入できるスイッチが必要だ。」
2ベンダー(Edgecore、UfiSpace)にわたる、OcNOS検証済みのTH5 SKU 4製品。VRF-Liteによるテナント分離、テナント単位のgNMIテレメトリ、EVPN-VXLANセグメンテーション。単一NOSイメージで、マルチベンダーハードウェアに対応。
DC · Multi-Tenant「当社は本番環境でTH4ファブリックを運用しています。次のトレーニングクラスタには800G NICが必要です。シリコンをアップグレードするために、NOSレイヤ全体を再設計したくはありません。」
同一の OcNOS-DC イメージが TH3、TH4、TH5 プラットフォームで動作。ブラウンフィールドのリフレッシュでも設定、自動化、gNMI パイプラインを無傷で維持。UEC 1.0 ファブリックプロファイルは次世代 NIC 向けに既に整合済み。
DC · UEC-ReadyOcNOSネットワークアーキテクトによる30分間のアーキテクチャセッション。GPU数、NIC速度、ティアの選好をお持ちいただければ、4種すべてのTH5 SKUにわたるサイジング済みのBoMをお持ち帰りいただけます。