BCM56996 · TSMC 7 nm · 온패키지 HBM 딥 버퍼

Broadcom Tomahawk 4 Tomahawk 4 스위치 25.6 Tbps · 64 × 400G · 딥 버퍼 400G 세대.

OcNOS-DC에서 검증된 하나의 개방형 플랫폼: Edgecore AS9736-64D. Tomahawk 4의 HBM deep-buffer 버전입니다: 800G 포트 수보다 버퍼 여유가 더 중요한 400G AI fabric을 위한 실리콘이자, 버스트가 깊게 발생하는 DCI/집선 역할을 위한 실리콘입니다.

25.6Tbps
스위치 용량
64×400G
네이티브 포트 Radix
~70GB
HBM 딥 버퍼
7nm
TSMC N7 공정
50GPAM4
레인당 SerDes
01
스위치
Tomahawk 4를 구동하는 오픈 하드웨어

하나의 플랫폼. 하나의 목적: 딥 버퍼 400G.

Edgecore AS9736-64D: BCM56996 딥 버퍼 Tomahawk 4 기반 2RU 64×400G QSFP-DD 스위치. ONIE 사전 로드, TH5 스파인 및 TD4 리프와 동일한 OcNOS-DC 이미지에서 동작합니다. 검증된 단일 플랫폼으로, 포트폴리오의 나머지 제품이 커버하지 못하는 아키텍처 틈새를 담당합니다.

Edgecore· DCS520 플랫폼 제품군
딥 버퍼 400G AI 패브릭 · DCI

AS9736-64D

OcNOS-DC에서 검증됨 · ONIE 사전 탑재
Ports
64 × QSFP-DD (400G)Breakout: 2×200 / 4×100 / 8×50 (최대 256개 논리 포트)
Form
2RU · 21.5 kg
Power
일반 ~2100 W · 핫스왑 이중화 ACQSFP-DD 케이지당 ~33 W
CPU
Intel Xeon D-class · 4 GB RAM
▌ 이럴 때 선택하세요

800G 포트보다 deep buffer가 더 중요한 single-pod GPU 클러스터를 위한 400G AI fabric용이며, 작은 버퍼의 switch가 드롭하는 버스트를 HBM이 흡수하는 400G 집선 / DCI 역할에도 적합합니다.

현재 위치 · 25.6 Tbps

Tomahawk 4: 64 × 400G

400G NIC가 클러스터의 핵심이거나, deep-buffer 여유 용량이 요구사항에 포함되거나, 더 작은 버퍼 칩이라면 드롭할 DCI/aggregation 버스트를 박스가 흡수해야 할 때 선택하십시오.

확장 · 51.2 Tbps

Tomahawk 5: 64 × 800G

클러스터에 800G 포트가 네이티브로 필요하거나, 동일한 64포트 radix에서 포트당 800G를 제공하는 것이 포트당 추가 비용을 들일 가치가 있을 때 선택하십시오. Tomahawk 5 페이지 →

더 작은 박스 · 12.8 Tbps

Trident 4: DC leaf

역할이 더 작은 용량 범위의 100G/400G DC 리프일 때 선택하십시오. 다른 칩 제품군, 동일한 OcNOS-DC 이미지, 훨씬 저렴한 포트당 비용을 제공합니다. (Trident 4 페이지 준비 중.)

02
실리콘 내부
HBM 기반 딥 버퍼가 제공하는 이점

Tomahawk 4, 그리고 HBM을 패키지에 탑재한 변형.

표준 Tomahawk 4 (BCM56990) 는 수백 메가바이트 범위의 on-die shared buffer를 갖춘 25.6 Tbps 스위치로, TH3 및 TH5와 동일한 등급입니다. HBM 변형은, BCM56996, AS9736-64D에 탑재된 칩으로, 추가되는 항목은 온패키지 High-Bandwidth Memory 딥 버퍼 확장 풀로서. 대략 70 GB 버퍼 HBM 대역폭으로 연결되며, 동일한 포워딩 파이프라인에서 주소 지정이 가능합니다.

이것이 중요한 이유: 무손실 RoCEv2는 일반적으로 큐가 가득 찰 때 백프레셔를 상위로 전파하는 PFC(priority flow control)에 의존합니다. HBM 헤드룸이 있으면 일시적인 AllReduce 마이크로버스트와 DCI 롱플로우 혼잡이 pause storm을 유발하는 대신 깊은 풀로 흡수됩니다. PFC는 여전히 동작하지만 훨씬 드물게 트리거되며, 트리거되더라도 watchdog이 큐를 비우기 전에 deadlock 사이클이 해소될 시간을 확보합니다.

Broadcom 사양과 교차 검증된 스펙 BCM56990/56996 제품 페이지 그리고 실시간 OcNOS 기능 매트릭스.

ProcessTSMC N7 SeriesStrataXGS BufferOn-die + HBM RoutingCognitive · DLB Shipping2020년부터

· 64 × 400G의 실제 모습

BCM56996 die25.6 Tbps
+ On-package HBM~70 GB 딥 버퍼
512 레인 × 50G PAM4 = 25.6 Tbps. 케이지당 8개 레인 → 400G. 버퍼 확장이 차별화 요소입니다.
중요한 네 가지 설계 선택

TH5 출시 이후에도 TH4가 AI 패브릭 논의에서 계속 거론되는 이유.

이 네 가지 선택지 중 셋은 TH3 및 TH5와 공유됩니다. BCM56996 변형을 고유하게 만드는 것은 HBM 확장입니다.

PRINCIPLE 02

50G PAM4 SerDes: 512 lane.

TH3(50G NRZ) 및 TH5(100G PAM4)와 동일한 레인 수를 갖습니다. TH4는 중간 세대에 위치합니다. QSFP-DD 케이지당 8개 레인으로 400G 네이티브를 제공하며, 브레이크아웃은 혼합 속도 도입을 위해 200G/100G/50G까지 확장됩니다.

512 레인 · 50G PAM4
PRINCIPLE 03

하드웨어 적응형 라우팅.

Broadcom Cognitive Routing은 컨트롤러 왕복 없이 ASIC 내에서 flowlet 인식 부하 분산을 수행합니다. OcNOS-DC는 이 기능을 DLB Reactive-Path Rebalance로 활성화합니다. HBM 여유 공간을 활용하여 해시 충돌 리바인딩과 버스트 흡수가 함께 작동합니다.

DLB · flowlet 재바인딩
PRINCIPLE 04

성숙한 7 nm 실리콘.

2020년부터 대량 출하: 4년 이상의 버그 수정, 예측 가능한 동작, 그리고 알려진 열 설계 한계를 갖췄습니다. TH3 패브릭의 브라운필드 리프레시에는 이것이 안정적이고 예측 가능한 선택지입니다.

TSMC N7 · 4년 이상 출하 실적
03
세대 도약
Tomahawk 3 → Tomahawk 4

용량은 두 배로, 공정은 미세화되고, HBM이 등장했습니다.

TH3(12.8 Tbps · 32×400G · 16 nm · 25G NRZ)는 AI 패브릭 이전 시대의 주력 제품이었습니다. TH4는 사양을 두 배로 끌어올렸으며, BCM56996 변형은 지금까지도 차별화 요소로 남아 있는 아키텍처적 변화를 더했습니다.

스위칭 용량
12.8 Tbps 25.6 Tbps

동일한 랙 공간에서 용량 2배. 2RU는 그대로 2RU.

네이티브 포트 radix
32 × 400G 64 × 400G

동일 속도에서 2배의 포트: 추가 계층 없이 Clos 설계에 적합합니다.

공정 노드
16 nm 7 nm

2단계 축소. 포트별 능동 냉각 없이 400G 광학 장비를 위한 포트당 전력 여유 확보.

레인당 SerDes
25G NRZ 50G PAM4

동일한 512 lane, lane당 두 배의 속도. 두 배 증가는 기존 인프라에서 실현되었습니다.

다음 도약: TH5는 다시 두 배로 늘려 100G PAM4 SerDes로 51.2 Tbps와 64 × 800G를 제공하지만, TH5는 표준 shared-buffer로 회귀하여 TH4G의 HBM deep buffer는 한 세대에 그친 기능으로 남았습니다. Tomahawk 5 페이지 →
04
OcNOS-DC 제공 내용
이 실리콘에서 동작하는 OcNOS-DC

TH5 spine와 동일한 이미지. HBM 인식 버퍼 프로파일.

OcNOS-DC는 TH3, TH4, TH5 플랫폼에서 동일하게 동작합니다. TH4에서는 한 가지 추가 기능을 제공합니다. xCCL (NCCL / RCCL / oneCCL) 집합 통신의 DCQCN 프로파일을 HBM 확장 풀에 매핑하여, 딥 버퍼가 없는 패브릭이라면 PFC pause로 처리해야 할 버스트도 무손실 RoCEv2로 통과시킵니다.

무손실 RoCEv2 · HBM 기반

PFC + ECN을 xCCL에 맞춰 사전 튜닝, 나머지는 딥 풀이 흡수합니다.

표준 PFC + ETS + Dynamic ECN 구성과 HBM을 고려한 버퍼 프로파일. 대부분의 AllReduce 마이크로버스트는 HBM 헤드룸이 흡수하기 때문에 PFC 임계값에 도달하지 않습니다. 얕은 버퍼 fabric을 무너뜨리는 동기화된 many-to-one 트래픽에서도 tail latency가 일정 범위 내로 유지됩니다.

Adaptive Routing

DLB는 ASIC에서 플로우렛을 재바인딩합니다.

TH4의 Cognitive Routing은 OcNOS-DC가 TH5에서 제공하는 것과 동일한 DLB Reactive-Path Rebalance를 실행합니다. HBM headroom과 flowlet 재바인딩의 조합은 동일한 포워딩 패스 내에서 ECMP 해시 충돌과 버스트 흡수를 처리합니다.

PFC 데드록 워치독

Per-port, per-priority. Auto-drain.

트레이닝 작업을 멈추게 하기 전에 pause된 큐 사이클을 감지합니다. HBM 헤드룸 덕분에 잠재적 데드락의 상당수는 아예 형성되지 않지만, 워치독은 여전히 작동 대기합니다.

스트리밍 텔레메트리

와이어상의 HBM 점유율.

버퍼 깊이(온다이)에 대한 gNMI on-change and HBM 확장), ECN 마크, PFC pause 카운트. 블랙박스가 아닌, 딥 풀에 대한 가시성을 제공합니다.

실제 네트워크

BGP · OSPF · IS-IS · EVPN-VXLAN.

동일한 실리콘 위에 구현된 완전한 통신사업자급 Layer 3 스택. TH4 스파인은 실제 라우터이기도 합니다: 블랙박스가 아니라 나머지 네트워크와 동일하게 운영하십시오.

검증된 기능 범위

TH5와 동일한 OcNOS-DC 이미지: 실리콘이 지원하는 모든 기능이 활성화됩니다.

Layer 3 라우팅 · L1/L2 · AI/ML 패브릭 프리미티브 · 멀티캐스트 · QoS · 보안 · 하드웨어 · 관리. 플랫폼별 검증 내용을 공개 매트릭스에서 확인할 수 있습니다.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN BGP / OSPF / IS-IS gNMI / NETCONF ZTP HBM 텔레메트리
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

zero-touch provisioning으로 랙에서 AS9736-64D를 구동하십시오. HBM 점유율을 포함한 모든 카운터를 옵저버빌리티 스택으로 스트리밍하십시오. YANG으로 모델링된 구성을 통해 모든 임계값을 조정하십시오. 글루 스크립트는 필요 없습니다.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform 프로바이더
이 스택을 구축하는 주체

운영자 프로파일 3종. 세 가지 모두를 위한 단일 실리콘.

64×400G + HBM 조합은 AS9736-64D를 AI 패브릭, DCI, 브라운필드 리프레시라는 세 가지 서로 다른 맥락에 위치시킵니다. 동일한 스위치, 동일한 아키텍처 과제에 대한 서로 다른 관점입니다.

AI 클러스터 오퍼레이터 · 400G NIC 포드

800G 실리콘 비용 없이 구현하는 400G NIC 패브릭.

"우리 클러스터는 400G NIC입니다. 아직 800G 포트는 필요 없지만, 딥 버퍼는 필요합니다. 얕은 버퍼 패브릭에서의 AllReduce는 계속 PFC를 유발합니다."

AS9736-64D 위 TH4 스파인, xCCL에 맞춰 튜닝된 DCQCN을 갖춘 RoCEv2, HBM 인식 버퍼 프로파일, 서브 ms DLB 리바인딩. 멀티 Pod 스케일아웃을 위한 3-tier Clos, 옆 TH5 배포와 동일한 OcNOS-DC 이미지.

DC · Deep-Buffer Spine
DCI · 딥 집선(Deep-Aggregation) 설계

패킷 손실 없는 롱 플로우 혼잡 제어.

"당사의 DCI 박스는 수 분간 지속되는 DC 간 TCP 플로우의 버스트를 흡수해야 합니다. 표준 스위치는 패킷을 폐기합니다. 섀시 라우터는 이 비용의 열 배가 듭니다."

long-flow 버스트 흡수에 맞게 산정된 약 70 GB HBM 확장 풀입니다. EVPN-VXLAN inter-DC, 완전한 L3 스택, 테넌트별 gNMI 텔레메트리를 제공합니다. 머천트 실리콘 경제성으로 구현되는 개방형 하드웨어입니다.

DC · DCI · 애그리게이션
브라운필드 · TH3 리프레시

용량은 두 배로, 운영 모델은 그대로.

"우리는 운영 환경에서 TH3 fabric을 사용하고 있습니다. 더 많은 용량이 필요하지만, NOS 계층을 재설계하거나 네트워크 팀을 재교육하고 싶지는 않습니다."

동일한 OcNOS-DC 이미지가 TH3와 TH4에서 모두 실행됩니다. brownfield 업그레이드 시 구성, 자동화, gNMI 파이프라인이 그대로 유지됩니다. 용량은 두 배가 되지만 운영 모델은 그대로입니다.

DC · 리프레시
자주 묻는

아키텍트가 실제로 묻는 질문들.

단일 플랫폼: Edgecore AS9736-64D, Broadcom BCM56996(온패키지 HBM 딥 버퍼를 갖춘 Tomahawk 4) 기반의 2RU 64×400G QSFP-DD 스위치입니다. ONIE가 사전 탑재되어 출하되며, TH5 스파인 및 TD4 리프와 동일한 OcNOS-DC 이미지를 실행합니다. 검증된 플랫폼은 한 종류의 스위치이지만, OcNOS 포트폴리오에서 딥 버퍼 400G 스위치에 해당합니다.
두 가지 이유가 있습니다. 첫째, BCM56996은 온패키지 HBM 딥 버퍼. TH5는 표준 공유 버퍼 아키텍처로 회귀했습니다. 플로우가 깊게 큐잉되는 400G 집선 및 DCI 역할에서는 TH4가 TH5(또는 TH3)가 드롭하는 버스트를 흡수합니다. 둘째, 400G NIC의 단일 팟 규모에서 TH4 패브릭은 아키텍처적 타협 없이 포트당 비용이 TH5보다 저렴합니다: 3계층 Clos가 여전히 적합하며 OcNOS-DC 기능 범위는 동일합니다.
온패키지 HBM은 칩의 유효 패킷 버퍼를 수백 메가바이트에서 약 70GB까지 확장합니다. AI 패브릭에서: AllReduce 마이크로 버스트가 tail-drop이나 PFC pause 스톰을 유발하는 대신 HBM에 흡수될 수 있습니다. DCI/집선 역할에서: 장기 지속되는 TCP 플로우가 재전송 없이 일시적 혼잡을 견뎌냅니다. 이는 무손실에 대한 논의를 다음에서 바꿔놓습니다: "PFC + ECN + 세심한 튜닝" to "대부분의 장애 모드를 가려주는 PFC + ECN + 헤드룸."
800G 포트가 BoM에 포함되거나, 동일한 64포트 radix에서 포트당 800G를 원하는 경우(동일 집계 대역폭에서 spine-leaf 케이블링을 절반으로 줄임) TH5(AIS800-64D)를 선택하십시오. 400G NIC가 클러스터의 기준이거나, 딥 버퍼가 아키텍처 선택(DCI, 딥 애그리게이션, 혼합 플로우 패브릭)이거나, 포트당 예산상 800G 실리콘을 배제해야 하는 경우 TH4(AS9736-64D)를 선택하십시오. 둘 다 동일한 OcNOS-DC 이미지로 동작합니다. 다중 계층 패브릭에서 둘을 혼용하는 것도 지원되는 도입 모델입니다.
예. TH4는 TH5와 동일한 Cognitive Routing 프리미티브를 갖추고 있습니다: 컨트롤러 왕복 없이 ASIC 내에서 처리되는 flowlet 인식 로드 밸런싱. OcNOS-DC는 이를 DLB Reactive-Path Rebalance로 활성화합니다. HBM 딥 버퍼와 결합하면 TH4 fabric은 elephant-flow 해시 충돌을 해소합니다 and rides through the resulting transient queue depth without dropping. PFC deadlock detection & recovery, DCQCN, and ETS are all available.
용량이 두 번 두 배로 증가했습니다(12.8 → 25.6 → 51.2 Tbps). 공정은 두 번 미세화되었습니다(16 → 7 → 5 nm). 레인당 SerDes는 두 번 두 배가 되었습니다(25G NRZ → 50G PAM4 → 100G PAM4). 레인 수는 제품군 전반에서 512개로 유지되었습니다. 버퍼 아키텍처: TH3는 표준 공유 방식, TH4는 HBM을 추가(BCM56996 변형 한정), TH5는 다시 표준 공유 방식으로 회귀했습니다. OcNOS-DC는 동일한 이미지로 세 가지 모두를 지원하므로, 브라운필드 갱신 시 구성과 gNMI 파이프라인을 그대로 유지합니다.
64×400G radix는 1 Tbps 미만 SP edge나 cell-site 게이트웨이에는 과도합니다. 이 경우 Qumran(Q2C, Q2C+) 또는 Qumran 2A/2U를 선택하십시오. 100G/25G 순수 DC leaf에도 형태가 맞지 않으므로, 12.8 Tbps의 Trident 4(TD4)를 선택하십시오. 그리고 클러스터에 오늘 당장 800G 포트가 정말로 필요하다면, TH4는 추가 Clos 계층을 강요하므로 TH5를 선택하십시오. TH4의 최적 지점은 "400G면 충분하고 deep buffer가 필요한" 경우입니다.

딥 버퍼 400G 패브릭을 설계 중이신가요? 함께 사이징해 보겠습니다.

OcNOS 네트워크 아키텍트와 함께하는 30분 아키텍처 세션입니다. GPU 수량, NIC 속도, 버스트 패턴 예상치를 가지고 참여하시면, AS9736-64D를 중심으로 규모가 산정된 BoM과 TH5 / TD4 대안 대비 배치 계획을 가지고 돌아가실 수 있습니다.