BCM78900 · TSMC 5 nm · 2023년 3월부터 출하

Broadcom Tomahawk 5 Tomahawk 5 스위치 OcNOS-DC에서 검증된 800G 오픈 플랫폼 3종.

Edgecore AIS800-64D, UfiSpace S9321-64E 및 S9321-64EO: 동일한 실리콘, 동일한 OcNOS-DC 이미지, 3가지 조달 경로. Tomahawk 5 스위치를 선택하는 엔지니어를 위한 사양, 결정 기준, OcNOS-DC 기능 영역.

51.2Tbps
스위치 용량
64×800G
네이티브 포트 Radix
3SKUs
OcNOS-Validated
2ODMs
Edgecore · UfiSpace
5nm
TSMC N5 공정
01
스위치
Tomahawk 5를 구동하는 오픈 하드웨어

800G 플랫폼 3종. ODM 2곳. 단일 OcNOS-DC 이미지.

두 가지 하드웨어 설계, 네 가지 SKU입니다. 네 제품 모두 ONIE가 사전 탑재된 상태로 제공되며 동일한 OcNOS-DC 이미지를 구동합니다. 차이점은 폼 팩터(QSFP-DD 대 OSFP), 브랜딩(AI-fabric SKU 대 일반 DC SKU), 그리고 도입이 어떤 광학 생태계를 중심으로 구축되는지입니다. 각 카드는 전체 벤더 데이터시트(PDF, 로컬 호스팅)로 연결됩니다.

Edgecore· DCS560 플랫폼 제품군
AI fabric 스파인

AIS800-64D

OcNOS-DC에서 검증됨 · ONIE 사전 탑재
Ports
64 × QSFP-DD800브레이크아웃: 2×400 / 4×200 / 8×100 (논리 포트 320개)
Form
2RU
Power
2× 3000 W AC/DC 이중화QSFP-DD 케이지당 30 W
CPU
Intel Xeon D1713NTE
▌ 이럴 때 선택하세요

GPU 클러스터 AI 패브릭. AI 패브릭 SKU 구성을 갖춘 Edgecore DCS560 섀시.

UfiSpace· S9321 플랫폼 제품군
AI/ML fabric 스파인

S9321-64E

OcNOS-DC에서 검증됨 · ONIE 사전 탑재
Ports
64 × QSFP-DD (200/400/800G)브레이크아웃: 2×400 / 4×200 / 8×100
Form
2RU · 23.72 kg
Power
일반 913 W (트랜시버 미포함)QSFP-DD 케이지당 30 W
CPU
Intel Icelake-D 4코어 · 32 GB DDR4
▌ 이럴 때 선택하세요

대규모 저엔트로피 AI/ML flow. UfiSpace는 TH5 adaptive routing을 설계 핵심으로 삼는 AllReduce 중심 트래픽용으로 64E를 마케팅합니다.

UfiSpace· S9321 플랫폼 제품군
800G DCI · 코히어런트 옵틱스

S9321-64EO

OcNOS-DC에서 검증됨 · ONIE 사전 탑재
Ports
64 × OSFP (200/400/800G)브레이크아웃: 2×400 / 4×200 / 8×100
Form
2RU · 23.74 kg
Power
925 W 정격 · 200–240 V AC고출력 광학 모듈용 OSFP 케이지
CPU
Intel Icelake-D · 32 GB DDR4
▌ 이럴 때 선택하세요

800G ZR/ZR+ coherent 또는 기타 고전력 모듈 등급. 64E의 OSFP 폼 팩터: 광 모듈이 케이지 선택을 좌우할 때 선택하십시오.

· 네 가지 중 선택하는 방법

AIS800 vs S9321-64E 비교동일한 TH5 실리콘, 2개 ODM. Edgecore DCS560 (AIS800-64D) 대 UfiSpace S9321: 하이퍼스케일 및 NeoCloud 조달용 듀얼 소스 BoM.
QSFP-DD vs OSFP대량 유통 광 모듈 생태계용 QSFP-DD (S9321-64E + Edgecore 양쪽 SKU). 800G ZR/ZR+ 코히어런트를 포함한 고전력 모듈 클래스용 OSFP (S9321-64EO).
Edgecore vs UfiSpace양사 모두 IP Infusion과 긴밀히 공동 설계한 오픈 하드웨어 ODM입니다. ODM 관계, RMA 물류, 또는 BoM 경제성에 따라 선택하세요.
단일 벤더 리스크TH5 플랫폼을 보유한 두 벤더가 있다는 것은 dual-source BoM이 현실적임을 의미하며, 이는 하이퍼스케일 및 NeoCloud 조달에 중요합니다.
02
실리콘 내부
단일 다이의 51.2 Tbps가 제공하는 이점

Tomahawk 5: Broadcom의 플래그십 머천트 스위치 ASIC.

The BCM78900 는 51.2 Tbps의 스위칭 용량을 제공하는 단일 5 nm 모놀리식 다이로, 800GbE 64포트, 400G 128포트 또는 200G 256포트를 네이티브로 지원합니다. Broadcom 최초의 5 nm 머천트 스위치 IC이자, 케이지에서 800GbE를 지원한 업계 최초의 제품이었습니다. 100G PAM4로 동작하는 512 SerDes 레인: Tomahawk 4와 동일한 lane 수, 두 배의 lane당 속도.

순수 용량을 넘어, 세 가지 아키텍처 선택이 TH5를 대부분의 상용 AI 패브릭을 떠받치는 실리콘으로 만들었습니다: 공유 버퍼 아키텍처 xCCL (NCCL / RCCL / oneCCL) 컬렉티브 마이크로 버스트를 하드웨어로 흡수 코그니티브 라우팅 (DLB)는 ASIC에서 엘리펀트 플로우를 재바인딩하고, 5 nm 열 헤드룸은 30 W QSFP-DD800 케이지가 포트별 능동 냉각 없이 작동하도록 합니다.

Broadcom의 공개 자료로 검증 가능한 사양 BCM78900 제품 페이지.

ProcessTSMC N5 SeriesStrataXGS Buffer공유, RDMA 최적화 RoutingCognitive · DLB Shipping2023년 3월부터

· 64 × 800G의 실제 모습

BCM78900 die51.2 Tbps
512 레인 × 100G PAM4 = 51.2 Tbps. 케이지당 8개 레인 → 800G. 이 산술이 곧 아키텍처입니다.
중요한 네 가지 설계 선택

2024년 이후 구축된 거의 모든 오픈 AI 패브릭에 TH5가 채택된 이유.

헤드라인 수치가 언론의 주목을 받습니다. 하지만 AI 패브릭 아키텍트가 실제로 중시하는 것은 이 네 가지 엔지니어링 선택입니다.

PRINCIPLE 01

동일한 레인 수, 두 배의 속도.

TH5는 TH4와 동일한 512 SerDes 레인을 갖추되, 50G 대신 100G PAM4로 구동합니다. 처리량이 두 배가 된 것은 인프라를 추가한 것이 아니라 기존 인프라를 고속화한 결과입니다.

100G PAM4 · 106 Gbps
PRINCIPLE 02

파티션 분할이 아닌 공유 버퍼(Shared-buffer) 방식.

64개 포트 전체에 걸친 패킷 메모리 풀, 포트별로 분할되지 않습니다. 한 포트에서 발생한 xCCL AllReduce 마이크로 버스트는 tail-drop을 일으키지 않고 패브릭 전체 풀에 흡수됩니다. TH5가 RoCEv2에서 승리하는 단 한 줄의 이유입니다.

Shared-buffer · RDMA-tuned
PRINCIPLE 03

하드웨어 적응형 라우팅.

Broadcom Cognitive Routing은 혼잡 경로를 감지하고 ASIC 내에서 elephant flow를 rebinding합니다: 컨트롤러 왕복도, ECMP rehashing도 없습니다. OcNOS-DC는 이를 DLB Reactive-Path Rebalance로 활성화합니다.

DLB · 64 µs flowlet
PRINCIPLE 04

5 nm 열 여유 공간.

최초의 5 nm 머천트 실리콘 switch IC입니다. 이 공정 미세화 덕분에 고출력 800G 광 모듈과 8×100G breakout을 포함하여 QSFP-DD800 cage당 30 W를 포트별 능동 냉각 없이 구현할 수 있게 되었습니다.

TSMC N5 · 30 W/port
03
세대 도약
Tomahawk 4 → Tomahawk 5

포트당 속도 2배. 용량 2배. 동일한 64포트 radix.

객관적 평가: TH4 (25.6 Tbps · 64×400G · 7 nm)는 400G NIC 기반 클러스터에 여전히 우수한 선택지입니다. TH5는 포트당 800G와 AI 패브릭 프리미티브가 모두 요구되는 환경에서 도입 가치를 발휘합니다.

스위칭 용량
25.6 Tbps 51.2 Tbps

동일한 랙 공간에서 2배. 동일한 2RU, 동일한 전력 사양 등급.

포트별 속도
64 × 400G 64 × 800G

실제 IPI 플랫폼에서도 동일한 64포트 라딕스 (AS9736-64D → AIS800-64D / S9321). 포트당 대역폭이 2배가 되므로 각 Clos 계층이 2배의 트래픽을 운반합니다.

공정 노드
7 nm 5 nm

최초의 5 nm 머천트 스위치 IC. 능동 냉각 없이 30 W/port를 위한 열 여유 확보.

레인당 SerDes
50G PAM4 100G PAM4

동일한 512 lane, 두 배의 속도. 처리량 두 배 증가는 기존 인프라에서 실현되었습니다.

브라운필드 리프레시도 깔끔하게 유지됩니다. 동일한 OcNOS-DC 이미지가 TH3, TH4, TH5 플랫폼에서 구동됩니다. 구성, 자동화, gNMI 파이프라인이 그대로 이어집니다. 다음 클러스터에는 TH5를 선택하고, 이미 잘 동작하는 곳에는 TH4를 유지하십시오.
04
OcNOS-DC 제공 내용
이 실리콘에서 동작하는 OcNOS-DC

Carrier-grade NOS. AI에 최적화된 기본 설정.

Tomahawk 5는 하드웨어를 갖추고 있습니다. NOS의 역할은 운영자, 텔레메트리 파이프라인, 클러스터 스케줄러가 복잡한 CLI 작업을 거치지 않고도 이를 활용할 수 있도록 노출하는 것입니다. OcNOS-DC는 이러한 프리미티브를 YANG으로 모델링된 상태를 갖춘 일급 구성 가능 객체로 제공합니다.

무손실 RoCEv2

공유 버퍼 아키텍처, 무손실 이스트-웨스트 트래픽.

OcNOS-DC는 PFC + ETS + Dynamic ECN을 xCCL 집합 통신 패턴에 맞춰 사전 튜닝하여 제공합니다. 커뮤니티 NOS 패브릭을 중단시키는 AllReduce 마이크로 버스트 상황에서도 tail latency가 제한됩니다. TH5의 공유 버퍼 풀은 분할 버퍼 칩에서는 tail-drop이 발생할 동기화된 many-to-one 트래픽을 흡수합니다.

Adaptive Routing

DLB가 64 µs 만에 flowlet을 재바인딩합니다.

elephant flow에서 발생하는 ECMP hash-collision은 AI fabric의 치명적 요인입니다. OcNOS-DC는 TH5 Cognitive Routing의 flowlet rebinding을 활성화하여 AllReduce 트래픽을 모든 spine 경로에 자동으로 분산시킵니다.

PFC 데드록 워치독

Per-port, per-priority. Auto-drain.

학습 작업을 멈추게 하기 전에 paused-queue 사이클을 감지합니다. 운영자 개입 없이 자동으로 복구합니다.

스트리밍 텔레메트리

gNMI on-change, OpenConfig YANG.

버퍼 depth, ECN mark, PFC pause 수: 모든 임계치가 조정 knob이고, 모든 카운터가 센서 경로입니다. Prometheus, Grafana, OTel에 연동됩니다.

실제 네트워크

BGP · OSPF · IS-IS · EVPN-VXLAN.

TH5 spine은 실제 라우터이기도 합니다. 동일한 실리콘에서 완전한 통신사업자급 Layer 3 스택을 제공합니다: AI 패브릭을 블랙박스가 아닌 네트워크의 나머지 부분과 동일하게 운영하십시오.

검증된 기능 범위

실시간 OcNOS Feature Matrix에서 추출한 8개 카테고리에 걸친 215개 기능.

Layer 3 라우팅 · L1/L2 · AI/ML 패브릭 프리미티브 · Multicast · QoS · 보안 · 하드웨어 · 관리. 모든 항목은 공개 매트릭스에서 플랫폼별로 검증할 수 있습니다.

RoCEv2 / PFC DCQCN DLB EVPN-VXLAN SR-MPLS BGP / OSPF / IS-IS gNMI / NETCONF ZTP UEC 1.0 지원
Day-0 to Day-2

ZTP. gNMI on-change. NETCONF + YANG. DCBX.

zero-touch provisioning으로 랙에 TH5 spine을 구동합니다. 모든 카운터를 관측 가능성 스택으로 스트리밍합니다. YANG으로 모델링된 구성을 통해 모든 임계값을 튜닝합니다. glue 스크립트가 필요 없습니다.

ZTP IPv4/IPv6 gNMI NETCONF OpenConfig YANG DCBX LLDP Ansible Terraform 프로바이더
이 스택을 구축하는 주체

운영자 프로파일 3종. 단일 실리콘 + NOS 조합.

동일한 TH5 die, 동일한 OcNOS-DC 이미지, 그리고 동일한 아키텍처 질문에 대한 세 가지 다른 관점입니다. 전체 스택을 단일 벤더에 묶지 않으면서 lossless east-west를 어떻게 확장할 것인가.

AI 클러스터 운영자

오픈 실리콘에서 최대 16k-GPU 한계까지 확장되는 트레이닝 패브릭.

"우리는 리프로의 800G, 무손실 RoCEv2, 그리고 AllReduce에서도 폭발하지 않는 테일 레이턴시가 필요합니다. 단일 벤더 종속은 고려 대상이 아닙니다."

TH5 64×800G 스파인, xCCL 튜닝 DCQCN을 적용한 RoCEv2, 1밀리초 미만의 DLB 리바인딩, PFC 데드락 워치독을 제공합니다. TH4와 동일한 64포트 radix를 유지하면서도 각 스파인 포트가 800G를 처리하므로, 동일한 총 패브릭 대역폭을 유지하면서 스파인-리프 케이블 설비를 절반으로 줄입니다.

DC · AI Fabric SKU
NeoCloud · GPU-as-a-Service

멀티 테넌트 패브릭, 통제 가능한 BoM.

"우리 고객이 GPU를 선택합니다. 그들의 NIC 선택에 우리 fabric BoM을 묶을 수는 없습니다. 최소 두 벤더에서 구매할 수 있는 스위치가 필요합니다."

두 벤더(Edgecore, UfiSpace)에 걸쳐 OcNOS 검증을 거친 4종의 TH5 SKU입니다. VRF-Lite 테넌트 격리, gNMI 테넌트별 텔레메트리, EVPN-VXLAN 세그먼테이션을 제공합니다. 하나의 NOS 이미지, 멀티벤더 하드웨어입니다.

DC · Multi-Tenant
하이퍼스케일러 · 브라운필드 리프레시

포크리프트 교체 없는 TH3/TH4 패브릭 리프레시.

"당사는 상용 환경에 TH4 패브릭을 운영하고 있습니다. 다음 학습 클러스터에는 800G NIC가 필요합니다. 실리콘을 업그레이드하기 위해 NOS 계층 전체를 재설계하고 싶지는 않습니다."

동일한 OcNOS-DC 이미지가 TH3, TH4, TH5 플랫폼에서 구동됩니다. 브라운필드 리프레시 시 구성, 자동화, gNMI 파이프라인이 그대로 유지됩니다. UEC 1.0 패브릭 프로파일은 차세대 NIC 세대에 맞춰 이미 정렬되어 있습니다.

DC · UEC-Ready
자주 묻는

아키텍트가 실제로 묻는 질문들.

두 ODM에 걸친 세 가지 개방형 하드웨어 플랫폼: Edgecore AIS800-64D(DCS560 섀시), UfiSpace S9321-64E(QSFP-DD), S9321-64EO(OSFP). 세 제품 모두 ONIE가 사전 탑재되어 출하되며 동일한 OcNOS-DC 이미지를 실행합니다: 동일한 구성, 동일한 기능 범위, 동일한 자동화 후크. 두 개의 벤더는 하이퍼스케일 및 NeoCloud 조달에서 이중 소싱 BoM이 현실적으로 가능함을 의미합니다.
QSFP-DD(AIS800-64D 및 S9321-64E)는 대량 보급된 광 모듈 에코시스템으로, 데이터센터 내부의 단거리 800G에 적합한 기본 선택지입니다. OSFP(S9321-64EO)는 QSFP-DD가 수용할 수 없는 모듈 클래스를 위한 고전력 케이지를 제공합니다: DCI용 800G ZR/ZR+ coherent, 장거리 DR4/DR8, 플러거블 앰프 등입니다. 광 모듈이 케이지 선택을 좌우하는 경우 OSFP를 선택하고, 그 외에는 비용과 에코시스템 폭에서 QSFP-DD가 우위에 있습니다.
TH4는 25.6 Tbps · 64×400G · 7 nm · 50G PAM4입니다. TH5는 동일한 64포트 radix에서 포트당 속도와 총 스위칭 용량을 두 배로 늘립니다(51.2 Tbps · 64×800G · 5 nm · 100G PAM4). 결정 기준: 클러스터에 800G 포트가 기본으로 필요하거나 각 스파인 포트가 두 배의 대역폭을 전달해야 한다면(동일한 총 패브릭 처리량에 대해 케이블 설비를 절반으로 줄임) TH5를 선택하십시오. 설계가 400G NIC와 단일 포드 구성을 중심으로 구축된다면, TH4도 여전히 훌륭하며 포트당 비용이 더 저렴합니다. OcNOS-DC는 동일한 기능 세트로 두 가지를 모두 지원하므로 브라운필드 리프레시가 깔끔하게 유지됩니다.
TH5는 UEC 1.0 패브릭 프로파일에 필요한 하드웨어 메커니즘을 갖추고 있습니다: 패킷별 ECMP, packet-spray에 친화적인 포워딩, 비순차 전달을 허용하는 공유 버퍼 스케줄링 등입니다. UEC 자체는 대부분 NIC에 존재하며, OcNOS-DC를 실행하는 TH5 패브릭은 UEC NIC이 대량 출하되면 UEC 트래픽을 올바르게 전달합니다. RoCEv2와 UEC는 동일한 스위치에서 공존합니다: 패브릭 교체 없이 클러스터를 NIC 단위로 마이그레이션할 수 있습니다.
TH5에서 OcNOS-DC는 AI 패브릭에 맞춰 사전 튜닝되어 제공됩니다: PFC over L3, ETS, Dynamic ECN, DLB Reactive-Path Rebalance, DLB Random-Flow, PFC Deadlock Detection & Recovery, xCCL 정렬 버퍼 프로파일, DCBX LLDP. 동일한 실리콘에서 AI 전용 스택이 일반적으로 다루지 않는 완전한 통신사업자급 Layer 3 스택(BGP, OSPF, IS-IS, SR-MPLS, EVPN-VXLAN)도 구동합니다. 8개 카테고리에 걸쳐 215개 기능이 검증되었으며, 모든 항목은 공개 OcNOS Feature Matrix에서 확인할 수 있습니다.
SP 엣지, 셀 사이트 게이트웨이, 1 Tbps 미만 집약. 이러한 역할에서는 64×800G 라딕스가 랙 공간을 정당화하지 못합니다. SP 라우팅용으로 OcNOS는 Broadcom Qumran (Q2C, Q2C+) 및 Jericho (J2C+)를 검증하였으며, 단일 Pod 풋프린트의 100G/400G DC 리프에는 Trident (TD3-X7, TD4) 가 경제성 면에서 더 우수합니다. 객관적 평가: TH5는 800G 라딕스와 AI 패브릭 프리미티브가 모두 중요할 때 선택되는 것이지, 둘 중 하나만 중요할 때는 아닙니다.

Tomahawk 5 fabric을 설계하십니까? 함께 규모를 산정해 드립니다.

OcNOS 네트워크 아키텍트와 함께하는 30분 아키텍처 세션입니다. GPU 수량, NIC 속도, tier 선호도를 가져오시면 4개 TH5 SKU 전반에 걸쳐 산정된 BoM을 받아 가실 수 있습니다.