AIS800-64D
- Ports
- 64 × QSFP-DD800拆分:2×400 / 4×200 / 8×100(320 個邏輯埠)
- Form
- 2RU
- Power
- 2× 3000 W AC/DC 冗餘每個 QSFP-DD 埠 30 W
- CPU
- Intel Xeon D1713NTE
GPU 叢集 AI fabric。採用 AI-fabric SKU 定位的 Edgecore DCS560 機箱。
Edgecore AIS800-64D、UfiSpace S9321-64E 和 S9321-64EO:相同的晶片、相同的 OcNOS-DC 鏡像、三條採購路徑。為正在挑選 Tomahawk 5 交換機的工程師提供規格、決策規則以及 OcNOS-DC 特性面。
兩種硬體設計,四款 SKU。四款均預裝 ONIE 出廠,並運行同一套 OcNOS-DC 鏡像。差異在於形態(QSFP-DD 與 OSFP)、品牌定位(AI 網路 SKU 與通用 DC SKU),以及部署所圍繞構建的光模組生態。每張卡片均連結至完整的廠商數據手冊(PDF,本地託管)。
GPU 叢集 AI fabric。採用 AI-fabric SKU 定位的 Edgecore DCS560 機箱。
大型、低熵的 AI/ML 流量。UfiSpace 將 64E 定位於以 AllReduce 為主的流量場景,其中 TH5 自適應路由是設計核心。
800G ZR/ZR+ 相干或其他更高功率模組類別。64E 採用 OSFP 形態:當光模組決定籠位選擇時即可選用。
The BCM78900 是一顆 5 nm 單片裸片,提供 51.2 Tbps 的交換容量,可原生支持 64 個 800GbE 埠、128 個 400G 埠或 256 個 200G 埠。它是 Broadcom 首款 5 nm 通用交換 IC,也是業界首款在籠位上支持 800GbE 的產品。 512 條 SerDes 通道,以 100G PAM4 運行:與 Tomahawk 4 相同的通道數量,每通道速率翻倍。
除了原始容量之外,還有三項架構選擇使 TH5 成為大多數生產級 AI 組網底層所採用的晶片: 共享緩衝架構 在硬體層吸收 xCCL (NCCL / RCCL / oneCCL) 集體通信微突發 認知路由 (DLB)可在 ASIC 中重新綁定大象流,配合 5 nm 的散熱餘量,使 30 W 的 QSFP-DD800 籠位無需逐埠主動散熱即可運行。
規格可對照 Broadcom 公開資料進行驗證 BCM78900 產品頁面.
奪人眼球的指標數字會登上新聞頭條。但這四項工程選擇,才是 AI fabric 架構師真正關心的。
TH5 與 TH4 一樣配備 512 條 SerDes 通道,但以 100G PAM4 而非 50G 運行。吞吐量翻倍源於既有基礎設施的提速,而非額外增加通道。
100G PAM4 · 106 Gbps全部 64 個埠共享的報文記憶體池、而非按埠劃分。某一埠上的 xCCL AllReduce 微突發會被吸收進全局 fabric 池,而不會觸發 tail-drop。這就是 TH5 在 RoCEv2 上勝出的關鍵所在。
Shared-buffer · RDMA-tunedBroadcom Cognitive Routing 在 ASIC 內檢測擁塞路徑並重綁定大象流:無需控制器往返,也無需 ECMP 重新哈希。OcNOS-DC 以 DLB Reactive-Path Rebalance 形式將其開啟。
DLB · 64 µs 流片(flowlet)首款 5 nm 通用交換晶片。正是這一製程縮減,使每個 QSFP-DD800 籠位 30 W 的功耗在無需逐埠主動散熱的情況下成為可能,包括高功率 800G 光模組和 8×100G breakout。
TSMC N5 · 30 W/port客觀評價:TH4 (25.6 Tbps · 64×400G · 7 nm) 對圍繞 400G NIC 構建的叢集依然出色。TH5 在每埠 800G 與 AI fabric 原生能力都重要時,才值得佔用機櫃空間。
在相同機架佔用下容量翻倍。相同的 2RU,相同的功耗等級。
在 IPI 實際平台上保持相同的 64-port radix (AS9736-64D → AIS800-64D / S9321)。每埠頻寬翻倍,因此每個 Clos 層承載的流量也翻倍。
首款 5 nm 通用交換晶片。具備 30 W/埠的熱餘量,無需主動散熱。
同樣的 512 條通道,速率翻倍。吞吐量的翻番源自現有基礎設施。
Tomahawk 5 具備硬體能力。NOS 的職責是將其暴露給維運人員、遙測管線和叢集調度器,而無需他們圍繞它編寫繁複的 CLI 操作。OcNOS-DC 將這些原語作為一等的可配置對象交付,並以 YANG 建模其狀態。
OcNOS-DC 出廠即提供針對 xCCL 集體通信模式預調優的 PFC + ETS + Dynamic ECN。在足以拖垮社區版 NOS fabric 的 AllReduce 微突發下,尾時延仍保持有界。TH5 的共享緩衝池吸收在分區緩衝晶片上會發生 tail-drop 的同步多對一流量。
大象流下的 ECMP 哈希衝突是 AI 網路的致命問題。OcNOS-DC 開啟 TH5 Cognitive Routing 的 flowlet 重綁定,使 AllReduce 流量自動分散到每條 spine 路徑上。
在暫停隊列周期掛起訓練任務之前即可檢測到。無需維運人員介入即可自動恢復。
緩存深度、ECN 標記、PFC 暫停計數:每個閾值都是一個旋鈕,每個計數器都是一條傳感器路徑。可對接 Prometheus、Grafana、OTel。
TH5 spine 同時也是一臺真正的路由器。在同一款晶片上運行完整的電信等級三層棧:像運維網路其餘部分一樣運維 AI fabric,而非把它當作黑盒。
三層路由 · L1/L2 · AI/ML fabric 原語 · 組播 · QoS · 安全 · 硬體 · 管理。每一條目均可在公開矩陣上按平台逐項驗證。
通過零接觸部署在機架中啟用一臺 TH5 spine。將每個計數器流式輸出至您的可觀測性棧。通過 YANG 建模的配置調整每個閾值。無需任何粘合腳本。
相同的 TH5 裸片、相同的 OcNOS-DC 鏡像,對同一架構問題給出三種不同的詮釋:如何在不將整個技術棧鎖定於單一廠商的前提下,擴展無損東西向流量?
「我們需要 800G 直連葉節點、無損 RoCEv2,以及在 AllReduce 下不會失控的尾部時延。單一廠商鎖定不在考慮範圍內。」
TH5 64×800G spine,搭配經 xCCL 調優的 DCQCN 的 RoCEv2、亞毫秒級 DLB 重綁定、PFC 死鎖看門狗。與 TH4 相同的 64 埠基數,但每個 spine 埠承載 800G,在同等聚合 fabric 頻寬下將 spine-leaf 布線量減半。
DC · AI Fabric SKU「客戶自行選擇 GPU。我們無法把織構 BoM 綁定到他們的 NIC 選型上。我們需要一款至少能從兩家廠商採購的交換機。」
跨兩家廠商(Edgecore、UfiSpace)的四款經 OcNOS 驗證的 TH5 SKU。VRF-Lite 租戶隔離、gNMI 按租戶遙測、EVPN-VXLAN 分段。一套 NOS 鏡像,多廠商硬體。
DC · Multi-Tenant"我們已有一套 TH4 網路結構投入生產。下一個訓練叢集需要 800G 網卡。我們不想為了升級晶片而重新設計整個 NOS 層。"
同一套 OcNOS-DC 鏡像運行在 TH3、TH4 和 TH5 平台上。棕地改造可完整保留配置、自動化與 gNMI 管線。UEC 1.0 fabric profile 已為下一代 NIC 提前對齊。
DC · UEC-Ready與 OcNOS 網路架構師進行 30 分鐘的架構研討。請帶上您的 GPU 數量、NIC 速率和層級偏好,離場時即可獲得一份覆蓋全部四款 TH5 SKU 的定製 BoM。