BCM56780・TSMC 7 nm・iPo-DWDM搭載の1RU 32×400G

Broadcom Trident 4 Trident 4 スイッチ 12.8 Tbps · 32 × 400G · 現代の DC リーフ。

OcNOS-DCで検証済みのオープンな1RU 32×400Gプラットフォーム2機種: Edgecore AS9726-32DB and UfiSpace S9300-32D。iPo-DWDMのヘッドルームを備えたDCリーフクラスのチップ:400G ZR/ZR+コヒーレント光トランシーバーをケージに直接装着でき、トランスポンダーシェルフは不要です。

12.8Tbps
スイッチ容量
32×400G
ネイティブポートレイディックス
1RU
フォームファクター
2SKUs
OcNOS-Validated
400GZR
iPo-DWDM対応
01
スイッチ
Trident 4を搭載したオープンハードウェア

2 つの 1RU 兄弟 SKU。単一の OcNOS-DC イメージ。

同一のアーキテクチャ クラス(Broadcom BCM56780 上の 32 × QSFP-DD)でありながら、ODM が異なります。両者とも ONIE プリロード済みで出荷され、同一の OcNOS-DC イメージで動作します。違いは調達の枠組みと、どのベンダーとの関係が自社のフリートに適するかという点です。各カードはベンダーの完全なデータシート(PDF、ローカルにホスト)にリンクしています。

Edgecore・DCS シリーズ
DC leaf · 400G

AS9726-32DB

OcNOS-DC で検証済み・ONIE プリロード
Ports
32 × QSFP-DD (400G)ブレイクアウト:2×200/4×100/8×50(最大256論理)
Form
1RU · 438.4 × 500 × 43.4 mm
Power
標準 ~1500 W ・ ホットスワップ対応 冗長QSFP-DDケージあたり約47W
CPU
Intel Xeon D・2 GB RAM
▌ こんなときに最適

iPo-DWDMのヘッドルームを備えた400G DCリーフ:400G ZR/ZR+プラガブル光トランシーバーをスパインに直接装着でき、トランスポンダーは不要。Edgecoreブランドのスキューです。

UfiSpace・S9300シリーズ
DC leaf · 400G

S9300-32D

OcNOS-DC で検証済み・ONIE プリロード
Ports
32 × QSFP-DD (400G)ブレイクアウト:2×200/4×100/8×50(最大256論理)
Form
1RU · 440 × 500 × 43.5 mm
Power
標準 ~1500 W ・ ホットスワップ対応 冗長QSFP-DDケージあたり約47W
CPU
Intel Xeon D・2 GB RAM
▌ こんなときに最適

AS9726-32DBと同一のアーキテクチャクラス。ODMとの関係、BoMの経済性、またはUfiSpaceプラットフォームが既にフリートの大半を占める箇所などで選定してください。

· TD4がOcNOSポートフォリオの他製品とどう位置付けられるか

vs Tomahawk 4TD4はラックスペース半分で容量も半分:DCリーフクラス。 TH4(25.6 Tbps) ディープバッファが重要となるスパイン/アグリゲーション用途向け。
vs Tomahawk 5TD4 is 400G; TH5(51.2 Tbps) は800G。組み合わせ:より大規模なAIファブリックでTD4リーフ、TH5スパイン。
vs Trident 3TD3は最大100Gポート、TD4は最新の400Gへのアップグレード経路。OcNOS-DCにそのまま対応。
iPo-DWDM の優位性400G ZR/ZR+コヒーレント向けの電力バジェットを備えたQSFP-DDケージ。トランスポンダーシェルフなしのメトロDCI。
02
シリコンの内部
DCリーフクラスのマーチャントシリコン

Trident 4:DC リーフ用途に特化した設計。

The BCM56780 Trident 4 はBroadcomの12.8 Tbps DCリーフ向けマーチャントASIC:Tomahawk 4の半分の容量で、ポート単価は大幅に低い。ネイティブradixは 32 × 400G (またはブレイクアウトにより64×200G、128×100G)。TSMC 7 nm上に50G PAM4 SerDesで構築:256レーン、QSFP-DDケージあたり8レーン。

TD4を小型のTHシリーズではなくリーフ専用チップたらしめている要素: スパインアグリゲーションではなく、イースト・ウエスト方向の転送に最適化。より小型のバッファプール(leafのワークロードパターンに適合)、VXLAN/EVPN VTEPの役割に向けて引き締めたテーブルサイジング、ポート単位の低い消費電力エンベロープ。このトレードオフは意図的なものです。TD4は16k-GPUクラスターに適したspineではありませんが、そのクラスターに適したleafです。

Broadcomの仕様と照合済み BCM56780製品ページ.

ProcessTSMC N7 SeriesStrataXGS RoleDC Leaf SerDes50G PAM4・256レーン 光トランシーバiPo-DWDM対応

・32 × 400G の構成例

BCM56780 ダイ12.8 Tbps
256レーン×50G PAM4=12.8 Tbps。ケージあたり8レーンで400G。1RU筐体・ケージあたり約47 Wのバジェットで400G ZRコヒーレントに対応。
重要な4つの設計上の選択

TD4がモダンなDCリーフに最適な形状である理由。

TH-シリーズとは意図的に異なり、各選択はスパイン容量ではなくリーフワークロードに最適化されています。

PRINCIPLE 01

イーストウエスト向けに最適化されたサイズ。

1RU で 12.8 Tbps は、DC リーフの自然な形態:スパインへの 32 × 400G アップリンクと、サーバへの 64 × 100G ダウンリンク(ブレイクアウト経由)を、使われない容量のためにシリコンを過剰実装することなく処理。

12.8 Tbps ・ 1RU
PRINCIPLE 02

iPo-DWDMケージバジェット。

AS9726-32DB および S9300-32D の QSFP-DD ケージは約 47 W/ポート向けにサイジングされ、400G ZR および OpenZR+ プラガブルコヒーレント光に十分。コヒーレントモジュールをリーフに直接挿し、トランスポンダ不要のメトロ DCI を実現。

約47 W/ケージ・400G ZR 対応
PRINCIPLE 03

ラインレートでのEVPN-VXLAN。

適切なVTEPスケーリングを伴うハードウェアアクセラレーテッドVXLANのカプセル化/カプセル解除。リーフでのESI-LAGマルチホーミング、対称/非対称IRB、そしてOcNOS-DC上の完全なBGP EVPNコントロールプレーン。

VXLAN VTEP · ESI-LAG
PRINCIPLE 04

スパインと同一のNOS。

TH4 および TH5 スパインで動作するのと同一の OcNOS-DC イメージが TD4 リーフでも動作。1つの設定モデル、1つの自動化サーフェス、1つのテレメトリパイプラインがファブリック全体を貫通。リーフ専用 OS の保守は不要。

OcNOS-DC ・ 統合イメージ
03
世代間の飛躍
Trident 3 → Trident 4

容量4倍。ポート速度4倍。同じDCリーフ用途。

TD3-X7(3.2 Tbps・32×100G・16 nm・25G NRZ)は、2018~2022 年期の主力リーフでした。TD4 は同じ 1RU フットプリントで仕様を4 倍にしました。役割は変わっていません:現代の DC リーフは単に大きくなっただけです。

スイッチング容量
3.2 Tbps 12.8 Tbps

同じ1RUで容量4倍。同じラックスペースで、スループットは4倍。

ネイティブポート速度
100G QSFP28 400G QSFP-DD

ポートあたり速度4倍。同じ32ポートの基数ながら、各ポートが4倍を伝送。

プロセスノード
16 nm 7 nm

2段階の微細化。Gbps当たりの電力が大幅に低下:400G ZRコヒーレントが必要とする条件。

コヒーレント光
SR/LR プラガブル 400G ZR/ZR+

QSFP-DDケージの予算でコヒーレントを収容。iPo-DWDMはTD4世代の登場でした。

Continuity: 同一のOcNOS-DCイメージがTD3とTD4の両方で動作。ブラウンフィールド刷新でもEVPN構成、BGPピアリング、gNMIサブスクリプション、Ansibleプレイブックはそのまま維持され、容量は4倍、運用モデルは不変です。 Trident 3 ページ →
04
OcNOS-DC の提供内容
このシリコン上のOcNOS-DC

キャリアグレードのリーフ。コヒーレント光。ロスレスRoCEv2。

TD4リーフはスパインと同一のOcNOS-DC機能群に加え、リーフがメトロ拡張ポイントを兼ねる際のトランスポンダーレスDCIを実現するiPo-DWDM機構を備えます。

EVPN-VXLAN Leaf

対称/非対称 IRB を用いた BGP EVPN。

リーフ上で完全なRFC 7432 EVPNコントロールプレーンを実現。アクティブ/アクティブのサーバー接続向けESI-LAGマルチホーミング、mass-withdrawによる収束、route-target自動導出。THスパインとTDリーフは同一のEVPNイメージを共有するため、直接ピアリング可能。

iPo-DWDM

ケージに直接挿す400G ZR/ZR+。

完全なDWDMチューニング、FECチューニング、OIF/CMIS管理を備えたプラガブルコヒーレント光。すべてOcNOS gNMI経由で制御。メトロDCIにトランスポンダーシェルフは不要です。

ロスレスRoCEv2

PFC + ECN + DCQCN.

リーフでも完全な RoCEv2 ツールキット:TH5 スパインと同じ xCCL (NCCL / RCCL / oneCCL) 集合通信向けデフォルト値を搭載。

ストリーミングテレメトリ

gNMI / OpenConfig.

ポートごとのカウンター、光レイヤーの状態(ZR向けのBER、分散、OSNR)、PFCポーズ数。Prometheus/Grafanaに接続可能。

実ネットワーク

BGP · OSPF · IS-IS · SR-MPLS.

リーフ上のフルルーティングスタック。フラットなL2スイッチではなく、真のルーターとして扱う。

検証済み機能領域

ファブリック全体と同一の OcNOS-DC イメージ。

レイヤー3ルーティング・L1/L2・AI/MLファブリックプリミティブ・マルチキャスト・QoS・セキュリティ・ハードウェア・管理。プラットフォームごとの検証状況は公開されているOcNOS Feature Matrixで確認できます。

EVPN-VXLAN ESI-LAG RoCEv2 / PFC DCQCN 400G ZR / ZR+ BGP / OSPF / IS-IS SR-MPLS gNMI / NETCONF ZTP
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

ゼロタッチプロビジョニングでラック内のTD4リーフを立ち上げ。コヒーレント光レイヤーの状態を含むすべてのカウンターを可観測性スタックへストリーミング。グルースクリプトは不要。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG CMIS 光モジュール Ansible Terraform プロバイダー
このスタックを構築する企業

3つのオペレータープロファイル。単一のリーフクラスシリコン。

同一のTD4シリコン、3つの異なるDCロール。それぞれが同一チップの異なる側面を活用。

DC事業者・400Gリーフ

100G ファブリックからの 400G リーフアップグレード。

「当社のDCリーフは現状100G QSFP28。ラック密度は上昇している。リーフへの400Gは必要だが、スパインを再設計する準備はできていない。」

32×400Gで4×ブレイクアウトにより100Gサーバーに接続するTD4リーフ。置き換え対象のTD3ファブリックと同一のEVPN-VXLAN設定言語。同一のOcNOS-DCイメージ。スパインは変わりません。

DC・リーフ刷新
メトロDCI・iPo-DWDM

トランスポンダ不要のメトロ拡張。

「当社には80 km離れた2つのDCがある。光チームはトランスポンダーシェルフを廃止したい。ネットワークチームは両者間に400Gを求める。調達部門は2レイヤーではなく1筐体を望む。」

QSFP-DDケージに400G ZRプラガブルを直接装着したTD4リーフ。EVPN inter-DCがL2/L3ファブリックを延伸。光レイヤーがIPレイヤーへ統合。1筐体で両レイヤーを実現。

DCI・メトロ
AIクラスター・小規模/中規模

シングルティアファブリック上のシングルポッド GPU クラスタ。

「当社のクラスターは100G NICを備えた32台のGPUサーバーで構成されています。多階層Closは不要ですが、ロスレスのRoCEv2と将来の拡張オプションを求めています」

TD4 スイッチ 2 台で 100G NIC (4× ブレイクアウト) の単一 Pod クラスタ向けに単一階層ファブリックを構成。サーバからスイッチまでロスレス RoCEv2、xCCL 向けチューニング済み DCQCN、マルチホームコンピュート向け ESI-LAG。マルチ Pod へのスケールには TH4 または TH5 スパインを追加するだけで対応可能。

DC・小規模AIファブリック
よくあるご質問

アーキテクトが実際に問う質問。

2 つのオープンハードウェア 1RU 32×400G プラットフォーム: Edgecore AS9726-32DB and UfiSpace S9300-32D。同一のアーキテクチャクラス(Broadcom BCM56780 上の 32×QSFP-DD)、ODM は異なる。いずれも ONIE プリロードで出荷され、TH5 スパインおよび TH4 ディープバッファアグリゲーションスイッチと同一の OcNOS-DC イメージで動作。
TD4(BCM56780)は1RUで12.8 Tbps、32×400Gを備え、2RUで25.6 Tbps、64×400GのTH4(BCM56996)の半分の容量。TD4は DC-leaf-class チップ:より小型の筐体、より低い消費電力、ポートあたりのより低いコスト。TH4は spine/aggregation-class オプションのHBMディープバッファを備えたチップ。リーフ・スパインファブリックでは、リーフにTD4、スパインにTH4またはTH5。両方で同一のOcNOS-DCイメージが動作。
はい、クラスタが十分に小さい場合は可能です。12.8 Tbpsのスパインは、32×400Gアップリンクを備えた32リーフのシングルティアファブリックをサポートし、100G NICで256~512 GPU規模のクラスタ、または400G NICで最大約128 GPUに対応します。それを超える場合、スパインには適切なClosスケーリングのためにTH4(25.6 Tbps)またはTH5(51.2 Tbps)の容量が必要になります。OcNOS-DCは3機種すべてを同一に扱います。
IP-over-DWDM。AS9726-32DBとS9300-32Dはいずれも次を備える: 400G ZRおよびOpenZR+プラガブルコヒーレント光学部品に対応する電力バジェットを備えたQSFP-DDケージ。コヒーレントモジュールをリーフに直接接続:個別のトランスポンダーシェルフも、マックスポンダーも不要。2 台のリーフスイッチ間のメトロ DCI では、光レイヤーが IP レイヤーに統合されます。CapEx、OpEx、ラック U を節約します。
はい。TD4はTH系と同じBroadcom共有バッファアーキテクチャ、ならびにPFC+ECNプリミティブを備えています。OcNOS-DCはTD4プラットフォーム上でPFC、ETS、Dynamic ECN、DCQCN、PFC Deadlock Detection & Recoveryを提供します。アダプティブルーティング(DLB)はASICでサポートされ、構成可能です。12.8 Tbpsの容量により、TD4は中小規模AIファブリックのリーフに好適です:サーバーからリーフまでRoCEv2ロスレス、その後TH4またはTH5上のスパイン全体でロスレスを実現します。
現在の800Gポート向け(TH5を使用)。クラスタが約64サーバー未満の純粋な100G/25G DCリーフ向け(TD3-X7がはるかに安価)。SPエッジまたはキャリアコア向け(QumranまたはJerichoを使用:異なる機能セット)。機器が深いバーストを吸収する必要のあるDCIの用途向け(HBM搭載のTH4を使用)。TD4が最も適するのは「iPo-DWDMのヘッドルームを備えた最新の400G DCリーフ」です。
データ入力に関する注記。Trident 4に対するBroadcomの公開部品番号は BCM56780; BCM56990 is Tomahawk 4。HCLの管理レコードでは非標準のラベルが用いられる場合がありますが、AS9726-32DBおよびS9300-32Dに搭載されるシリコンはBCM56780 Trident 4ファミリーです。調達において正確な部品番号が重要な場合は、リンク先のEdgecoreおよびUfiSpaceデータシートと照合してください。

iPo-DWDMのヘッドルームを備えた400G DCリーフを設計しているか。

OcNOS ネットワークアーキテクトによる30分のアーキテクチャセッション。DCのレイアウト、サーバー台数、DCI 要件をお持ちいただければ、AS9726-32DB/S9300-32D を軸としたサイジング済み BoM と、TH クラスのスパインとの配置プランをお持ち帰りいただけます。

References

Trident 4 references & further reading