BCM56996・TSMC 7 nm・オンパッケージHBMディープバッファ

Broadcom Tomahawk 4 Tomahawk 4 スイッチ 25.6 Tbps・64×400G:ディープバッファ世代の400G。

OcNOS-DC で検証済みの単一オープンプラットフォーム: Edgecore AS9736-64D。Tomahawk 4のHBMディープバッファ版:800Gのポート数よりもバッファの余裕が重視される400G AIファブリック向け、ならびにバーストが深く流れるDCI/アグリゲーション用途向けのシリコンです。

25.6Tbps
スイッチ容量
64×400G
ネイティブポートレイディックス
~70GB
HBMディープバッファ
7nm
TSMC N7プロセス
50GPAM4
レーンあたりSerDes
01
スイッチ
Tomahawk 4を搭載したオープンハードウェア

1つのプラットフォーム。1つの目的:ディープバッファ 400G。

Edgecore AS9736-64D:BCM56996 ディープバッファ Tomahawk 4 を搭載した 2RU 64×400G QSFP-DD スイッチ。ONIE 事前ロード済みで、TH5 スパインや TD4 リーフと同じ OcNOS-DC イメージで動作。1 つの検証済みプラットフォームが、ポートフォリオの他機種ではカバーされないアーキテクチャ上の領域を担います。

Edgecore・ DCS520プラットフォームファミリー
ディープバッファ400G AIファブリック・DCI

AS9736-64D

OcNOS-DC で検証済み・ONIE プリロード
Ports
64 × QSFP-DD (400G)ブレークアウト:2×200/4×100/8×50(最大256論理ポート)
Form
2RU · 21.5 kg
Power
標準 ~2100 W ・ ホットスワップ対応 冗長AC電源QSFP-DDケージあたり約33W
CPU
Intel Xeon D クラス・4 GB RAM
▌ こんなときに最適

800Gポートよりもディープバッファが重視されるシングルポッドGPUクラスター向けの400G AIファブリック、ならびにHBMがバッファの小さいスイッチではドロップするバーストを吸収する400Gアグリゲーション/DCI用途に最適です。

現在地 ・25.6 Tbps

Tomahawk 4: 64 × 400G

400G NICがクラスターの中核を担う場合、ディープバッファのヘッドルームが要件に含まれる場合、あるいは小容量バッファのチップでは破棄されるDCI/アグリゲーションのバーストを本機で吸収する必要がある場合に選択ください。

ステップアップ ・ 51.2 Tbps

Tomahawk 5: 64 × 800G

クラスタが800Gポートをネイティブに必要とする場合、または同一の64ポートラディックスでポートあたり800Gがポート単価のプレミアムに見合う場合に選択。 Tomahawk 5 ページ →

より小型の筐体・12.8 Tbps

Trident 4: DC leaf

より小さい容量エンベロープで100G/400GのDCリーフとして使う場合に選択。チップファミリーは異なりますが、同一のOcNOS-DCイメージで、ポート当たりのコストは大幅に低減。 (Trident 4ページは近日公開。)

02
シリコンの内部
HBM搭載ディープバッファがもたらすもの

Tomahawk 4、およびパッケージにHBMを搭載したバリアント。

標準的なTomahawk 4(BCM56990)は数百メガバイト規模のオンダイ共有バッファを備えた25.6 Tbpsスイッチであり、TH3およびTH5と同クラス。HBMバリアントは、 BCM56996、AS9736-64Dに搭載されるチップが加えるのは オンパッケージの広帯域メモリ(HBM) ディープバッファ拡張プールとして。おおよそ 70 GB のバッファ HBM帯域幅で接続され、同一の転送パイプラインからアドレス指定可能。

これが重要な理由:ロスレスのRoCEv2は通常、キューが埋まった際にPFC(priority flow control)が上流へバックプレッシャーを伝搬することに依存します。HBMのヘッドルームがあれば、一時的なAllReduceマイクロバーストやDCIのロングフロー輻輳は、ポーズストームを誘発する代わりにディーププールへ吸収されます。PFCは依然としてアームされますが、発動頻度は大幅に低下し、発動した場合でもウォッチドッグがドレインする前にデッドロックサイクルが解消される余地が生まれます。

Broadcomの仕様とクロスチェック済み BCM56990/56996 製品ページ および最新のOcNOSフィーチャーマトリクス。

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM Routingコグニティブ・DLB Shipping2020年以降

・64 × 400G の構成例

BCM56996 ダイ25.6 Tbps
+ On-package HBM約 70 GB ディープバッファ
512レーン×50G PAM4=25.6 Tbps。ケージあたり8レーン→400G。バッファ拡張が差別化要因です。
重要な4つの設計上の選択

TH5の出荷後もTH4がAIファブリックの選択肢に残り続ける理由。

これら4つの選択肢のうち3つはTH3およびTH5と共通です。BCM56996バリアントを独自たらしめているのはHBM拡張です。

PRINCIPLE 02

50G PAM4 SerDes:512 レーン。

TH3(50G NRZ)および TH5(100G PAM4)と同じレーン数。TH4 は中間世代に位置。QSFP-DD ケージあたり8レーンで 400G ネイティブを実現し、ブレイクアウトにより混在速度の展開向けに 200G/100G/50G へ拡張。

512レーン・50G PAM4
PRINCIPLE 03

ハードウェア適応型ルーティング。

Broadcom Cognitive Routing:ASIC内でのflowlet対応ロードバランシングにより、コントローラーへの往復が不要。OcNOS-DCはこれをDLB Reactive-Path Rebalanceとして有効化。HBMのヘッドルームにより、ハッシュ衝突のリバインディングとバースト吸収が連携して機能します。

DLB・フローレット再バインディング
PRINCIPLE 04

成熟した7 nmシリコン。

2020年以来ボリューム出荷:4年以上のバグ修正、予測可能な挙動、既知の熱設計枠。TH3 ファブリックのブラウンフィールドリフレッシュには、これが退屈かつ予測可能な選択肢。

TSMC N7・4年以上の出荷実績
03
世代間の飛躍
Tomahawk 3 → Tomahawk 4

容量は倍増。プロセスは微細化。HBM が登場。

TH3(12.8 Tbps・32×400G・16 nm・25G NRZ)は、AI ファブリック以前の時代の主力。TH4 はスペックシートを倍増させ、BCM56996 バリアントは今なお差別化要因であるアーキテクチャ上の工夫を追加。

スイッチング容量
12.8 Tbps 25.6 Tbps

同一ラックフットプリントで容量を倍増。2RUは2RUのまま。

ネイティブポートレイディックス
32 × 400G 64 × 400G

同一速度で2倍のポート:追加階層なしでClos設計に適合。

プロセスノード
16 nm 7 nm

2段階の微細化。アクティブなポート別冷却なしで400G光学部品を駆動するポート当たりの電力的余裕。

レーンあたりSerDes
25G NRZ 50G PAM4

同じ512レーンで、レーン当たり速度は2倍。倍増は既存インフラから実現。

次のステップ: TH5はさらに倍増し、100G PAM4 SerDesで51.2 Tbpsおよび64 × 800Gを実現しますが、TH5は標準的な共有バッファに回帰しており、TH4GのHBMディープバッファは一世代限りの機能となりました。 Tomahawk 5 ページ →
04
OcNOS-DC の提供内容
このシリコン上のOcNOS-DC

TH5スパインと同一イメージ。HBM対応バッファプロファイル。

OcNOS-DC は TH3、TH4、TH5 プラットフォーム上で同一に動作します。TH4 では 1 点だけ追加機能があります: xCCL (NCCL / RCCL / oneCCL) 集合通信の DCQCN プロファイルを HBM 拡張プールにマッピングすることで、ディープバッファ非搭載のファブリックでは PFC ポーズで対処せざるを得ないバーストでも、ロスレス RoCEv2 で乗り切れます。

ロスレス RoCEv2・HBM 搭載

PFC + ECN は xCCL 向けに事前チューニング、残りはディープバッファプールが吸収。

標準のPFC+ETS+Dynamic ECN構成に、HBMを考慮したバッファプロファイルを加えた構成。大半のAllReduceマイクロバーストは、HBMのヘッドルームが吸収するためPFC閾値に到達しません。テールレイテンシは、シャローバッファのファブリックを機能停止させる同期的なメニーツーワントラフィック下でも有界に保たれます。

アダプティブルーティング

DLBはASIC内でフローレットを再バインド。

TH4 上の Cognitive Routing は、OcNOS-DC が TH5 で提供するのと同じ DLB Reactive-Path Rebalance を実行します。HBM ヘッドルームとフローレット再バインドの組み合わせにより、ECMP ハッシュ衝突とバースト吸収を同一の転送パスで処理します。

PFCデッドロックウォッチドッグ

Per-port, per-priority. Auto-drain.

トレーニングジョブがハングする前にポーズキューのサイクルを検出。HBMヘッドルームにより多くの潜在的デッドロックは発生しませんが、それでもウォッチドッグは待機状態を維持。

ストリーミングテレメトリ

配線上の HBM 占有率。

バッファ深度(オンダイ)に対する gNMI on-change and HBM拡張)、ECNマーキング、PFCポーズカウント。ブラックボックスではなく、ディープバッファへの可視性。

実ネットワーク

BGP · OSPF · IS-IS · EVPN-VXLAN.

同一シリコン上のフルキャリアグレードLayer 3スタック。TH4スパインは真のルータでもあります。ブラックボックスとしてではなく、ネットワーク全体の他の機器と同様に運用可能です。

検証済み機能領域

TH5と同一のOcNOS-DCイメージ:シリコンが対応する範囲ですべての機能が有効化されます。

Layer 3ルーティング・L1/L2・AI/MLファブリックプリミティブ・Multicast・QoS・セキュリティ・ハードウェア・管理。プラットフォームごとの検証状況はパブリックマトリクスで確認可能です。

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP HBMテレメトリー
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

AS9736-64D をゼロタッチプロビジョニングでラックに立ち上げ可能。HBM 占有率を含むあらゆるカウンタを、自社のオブザーバビリティスタックへストリーミング。YANG モデル化された設定であらゆるしきい値をチューニング可能。グルースクリプトは不要。

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform プロバイダー
このスタックを構築する企業

3つのオペレータープロファイル。3つすべてに単一のシリコン。

64×400G と HBM の組み合わせにより、AS9736-64D は AI ファブリック、DCI、ブラウンフィールド更新という 3 つの異なる文脈で語られます。同じスイッチを、同一のアーキテクチャ上の問いとして異なる切り口で捉えたものです。

AIクラスタオペレーター・400G NICポッド

800Gシリコンのコストをかけずに実現する400G NICファブリック。

「当社のクラスタは400G NICです。800Gポートはまだ不要ですが、ディープバッファは必要です。シャローバッファファブリックでのAllReduceはPFCを繰り返し誘発します。」

AS9736-64D 上の TH4 スパイン、xCCL 向けにチューニングされた DCQCN を備えた RoCEv2、HBM 適応型バッファプロファイル、サブミリ秒の DLB リバインディング。マルチ Pod スケールアウト向け 3 段 Clos、隣接する TH5 デプロイメントと同じ OcNOS-DC イメージ。

DC · Deep-Buffer Spine
DCI・ディープアグリゲーション設計者

パケットを失わないロングフロー輻輳制御。

「当社のDCI筐体は、数分間にわたって流れるクロスDCのTCPフローによるバーストを吸収しなければなりません。標準的なスイッチでは廃棄が発生します。シャーシ型ルータは本来あるべき価格の10倍もします。」

ロングフローのバースト吸収向けにサイジングされた約70 GBのHBM拡張プール。EVPN-VXLANによるDC間接続、フルL3スタック、テナントごとのgNMIテレメトリ。マーチャントシリコンの経済性によるオープンハードウェア。

DC・DCI・アグリゲーション
ブラウンフィールド ・ TH3刷新

容量を倍増、運用モデルは同一。

「当社は本番環境でTH3ファブリックを運用している。容量の増強は必要だが、NOSレイヤを再設計したりネットワークチームを再教育したりはしたくない。」

同一のOcNOS-DCイメージがTH3とTH4で動作します。ブラウンフィールドの刷新でも設定・自動化・gNMIパイプラインはそのまま維持。容量は2倍に、運用モデルは不変。

DC・リフレッシュ
よくあるご質問

アーキテクトが実際に問う質問。

単一プラットフォーム: Edgecore AS9736-64D。Broadcom BCM56996(オンパッケージ HBM ディープバッファ搭載の Tomahawk 4)をベースとする 2RU 64×400G QSFP-DD スイッチです。ONIE プリロード済みで出荷され、TH5 スパインや TD4 リーフと同一の OcNOS-DC イメージで動作します。検証済みプラットフォームは 1 機種ですが、OcNOS ポートフォリオにおけるディープバッファ 400G スイッチに位置付けられます。
理由は2つ。1つ目は、BCM56996が オンパッケージ HBM ディープバッファ。TH5は標準的な共有バッファアーキテクチャに戻りました。フローが深くキューイングされる400GアグリゲーションおよびDCIの用途では、TH4はTH5(またはTH3)がドロップするバーストを吸収します。第二に、400G NIC上のシングルポッド規模では、TH4ファブリックはアーキテクチャ上の妥協なしにTH5よりもポート当たりのコストが低く済みます:3階層のClosも収まり、OcNOS-DCの機能範囲も同一です。
オンパッケージのHBMにより、チップの実効パケットバッファが数百メガバイトから約70 GBに拡張されます。AIファブリックでは:AllReduceのマイクロバーストが、テールドロップやPFCポーズストームを引き起こすことなくHBMに吸収されます。DCI/アグリゲーションの用途では:長寿命のTCPフローが、再送なしで一時的な輻輳を乗り切ります。これにより、ロスレスのあり方が次のものから変わります: 「PFC + ECN + 入念なチューニング」 to 「障害モードの大半を覆い隠すPFC + ECN + ヘッドルーム。」
800GポートがBoMに含まれる場合、または同一の64ポートラディックスでポートあたり800Gを実現したい場合(同一の総帯域でスパイン/リーフ間の配線を半減)は、TH5(AIS800-64D)を選択します。400G NICがクラスターの基軸となる場合、ディープバッファがアーキテクチャ上の選択肢である場合(DCI、ディープアグリゲーション、混在フローファブリック)、またはポートあたりの予算上800Gシリコンが見送られる場合は、TH4(AS9736-64D)を選択します。いずれも同一のOcNOS-DCイメージで動作します。マルチティアファブリックでの両者の混在はサポート対象の構成です。
はい。TH4はTH5と同じCognitive Routingプリミティブを備えています:ASIC内のフローレット対応ロードバランシングにより、コントローラーへのラウンドトリップが不要です。OcNOS-DCはこれをDLB Reactive-Path Rebalanceとして有効化します。HBMディープバッファと組み合わせることで、TH4ファブリックはエレファントフローのハッシュ衝突を解消します and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
容量は2度倍増(12.8 → 25.6 → 51.2 Tbps)。プロセスは2度微細化(16 → 7 → 5 nm)。レーンあたりのSerDesも2度倍増(25G NRZ → 50G PAM4 → 100G PAM4)。レーン数はファミリー全体で512に据え置き。バッファアーキテクチャは、TH3が標準共有、TH4がHBMを追加(BCM56996バリアントのみ)、TH5は標準共有に回帰。OcNOS-DCはこれら3世代すべてを同一イメージでサポートし、ブラウンフィールド更改でも設定とgNMIパイプラインをそのまま維持。
64×400Gのラディックスは、1 Tbps未満のSPエッジやセルサイトゲートウェイには過剰です。これらにはQumran(Q2C、Q2C+)またはQumran 2A/2Uを選択してください。100G/25Gの純粋なDCリーフ用途でも形状が合いません。12.8 TbpsのTrident 4(TD4)を選択してください。また、クラスタが今まさに800Gポートを本当に必要とする場合、TH4はClos階層を1段追加することになるため、TH5を選択してください。TH4の最適領域は「400Gで十分、かつディープバッファが必須」というケースです。

ディープバッファ400Gファブリックを設計中ですか。一緒にサイジングしましょう。

OcNOSネットワークアーキテクトとの30分間のアーキテクチャセッション。GPU数、NIC速度、バーストパターンの想定をお持ちいただければ、AS9736-64Dを中心としたサイジング済みBoMと、TH5/TD4の代替案に対する配置プランをお持ち帰りいただけます。