適用於 AI Fabric 的 InfiniBand 與 Ethernet 對比
對於任何不簡單的 GPU 叢集,「直接買 InfiniBand」曾是穩妥之選,而如今這一答案正在改變。現代乙太網(具備 PFC 的 RoCEv2、ECN/DCQCN、DLB,以及即將到來的 GLB 和 UEC)彌合了大部分性能差距,同時打開了超大規模雲廠商正在邁入的多廠商、開放硬體之門。
兩張網路,兩種營運模式
左側:單一廠商的 InfiniBand fabric,只有一家 IB 晶片廠商、一套交換機、一個 NIC 生態。右側:多廠商的開放乙太網 fabric,可採用任意廠商的 RoCEv2 / UEC NIC,交換晶片來自 Broadcom,以 OcNOS-DC 作為 NOS,並沿用與資料中心其餘部分相同的協議。
客觀對比
InfiniBand 是為低延遲、無損 RDMA 而專門打造的。二十年來,這使它在緊耦合 HPC 工作負載上擁有實實在在的性能優勢。基於 DCB 協議棧、RoCEv2,以及日益成熟的 DLB 和 UEC 構建的現代乙太網,在過去幾年裡一直在縮小這一差距。剩餘的差距對某些工作負載至關重要,對另一些則無關緊要。正確答案取決於具體工作負載,而非教條之爭。
| Axis | InfiniBand | 乙太網(RoCEv2 / UEC) |
|---|---|---|
| 時延下限 | 端到端 NIC 到 NIC 時延極低;交換機單跳通常為數百納秒。 | 時延下限比 IB 高出數百納秒,但仍遠低於會影響大規模分布式訓練集合通信的閾值。 |
| 丟包容忍度 | 架構層面無損(基於信用的流量控制)。 | 通過 PFC + ECN + DCQCN 實現無損。如今已達生產級;UEC 進一步降低對 PFC 暫停的依賴。 |
| 多路徑 / 負載均衡 | 自適應路由已內置於規範中。 | 靜態 ECMP,外加用於自適應單跳的 DLB、用於端到端的 GLB(OcNOS 7.1),以及適用於下一代的 UEC 報文噴灑。 |
| 廠商生態系統 | 在 NIC 和交換機晶片方面實際上均為單一供應商。 | 每一層均支持多廠商:ASIC、交換機、NIC、NOS、光模組。UEC 明確為廠商中立的互操作而設計。 |
| 營運模式 | 子網管理器(UFM 級別)。與 DC 其餘部分不同。需要單獨的技能與單獨的工具鏈。 | 沿用您已在運行的 BGP、EVPN、gNMI。與資料中心其餘部分採用相同的自動化工具(Ansible、NETCONF、OpenConfig)。 |
| Multi-tenancy | 有限;存在分區機制,但並非一流概念。 | 通過 EVPN-VXLAN 原生支持。GPU-as-a-Service、多團隊叢集、共享基礎設施皆水到渠成。 |
| Long-haul DCI | 並非為此設計;需要 IB-over-WAN 網關。 | 通過 400G ZR/ZR+ 相干可插拔模組和 EVPN 跨資料中心原生實現。 |
| 儲存融合 | 儲存與計算並行運行;需要 IB 連接的儲存。 | NVMe-oF、NFS、S3 全部運行在同一套乙太網網路上。 |
| 每埠成本(典型 400G+) | 高端;單一廠商定價。 | 開放硬體 spine + OcNOS-DC NOS,相比廠商鎖定方案具有實質性成本優勢。 |
| 路線圖推進速度 | 受制於單一廠商的版本發布節奏。 | UEC 聯盟(AMD、Arista、Broadcom、Cisco、HPE、Intel、Meta、Microsoft、Oracle 等)推動著公開發布的規範演進。 |
各自的制勝場景
時延下限受合同約束
在 HPC 仿真負載中,每一次集合通信都至關重要,絕對時延下限比總擁有成本更為關鍵。適用於緊湊、專屬的單租戶叢集,在這類場景中廠商鎖定是可以接受的。
運維模式至關重要
多租戶 GPU 即服務。與資料中心其餘部分共享基礎設施的 AI 叢集。凡是團隊希望採用統一運維模型、統一工具棧和多廠商供應鏈的場景,均適用。
每 GPU 浮點運算成本是關鍵門檻
開放硬體 spine + OcNOS-DC 消除了專有網路稅。在數千 GPU 規模的叢集上,所節省的 CapEx 往往足以購買額外的 GPU 算力。
該 fabric 可跨多個 DC 延伸
如果某次訓練任務有朝一日需要跨越兩個機房或兩個地域,乙太網將成為預設優選:相干 DCI、EVPN 資料中心間互聯以及標準的多廠商光模組,使這成為一天即可完成的工作,而非耗時一個季度的線路系統工程。
現代乙太網已彌合差距的領域
無損行為。 採用 PFC、DCQCN 的 RoCEv2,以及 OcNOS-DC PFC 死鎖看門狗 如今已達生產級水平。一旦正確配置好這些機制,「乙太網會丟包」這一質疑便不再成立。
自適應路由。 AI 工作負載上的靜態 ECMP 衝突確實存在,但 DLB 在亞毫秒級時間窗口內根據本地擁塞重新分配 flowlet,並 GLB 在 OcNOS 7.1 中將其擴展為完整的端到端路徑評分。
適配噴灑式傳輸。 Ultra Ethernet (UEC) 為標準乙太網帶來包噴灑(packet spray)、多路徑 RDMA、亂序交付以及選擇性重傳。曾定義 InfiniBand 的架構優勢,正落地於多廠商的開放協議棧之上。
TCO 探討
對於 2026 年大多數生產級 AI fabric 決策而言,在五年期內網路僅佔叢集 TCO 的 5%–8%。在同等容量下,InfiniBand 相對於開放硬體乙太網的溢價通常落在 +30% 到 +60% 區間。在一個價值 1 億美元的叢集中,這是一個不容忽視的數字,但更重要的數字是節省下來的 CapEx 能為您帶來什麼(更多 GPU、更大的儲存層、用於高可用的第二站點)。而對於網路為多租戶或與資料中心其餘部分共享的叢集,統一網路模型所帶來的運維簡化,其價值高於這一單項的成本差異。
IP Infusion 的觀點
- 兩者各有用武之地。 我們不會假裝乙太網能在每種工作負載中都勝出。對延遲有絕對下限要求的緊耦合 HPC 叢集,在一段時間內仍會繼續選購 InfiniBand。
- 大多數 AI 網路都應構建在乙太網之上。 超大規模的生產級 AI 訓練與推理正在轉向乙太網,因為一旦技術差距縮小,其運維和經濟上的優勢便壓倒性地明顯,而這一差距正在快速縮小。
- OcNOS-DC 是開放之路。 當前支持 RoCEv2,當前支持 DLB,下一步支持 GLB,並將隨網卡上市支持 UEC。一套 NOS、一份特性路線圖,運行於來自 Edgecore、UfiSpace、Wedge 等廠商的經過驗證的開放硬體之上。
- 架構評審免費提供。 如果您正在規劃網路規模,並希望獲得針對具體工作負載的分析而非廠商推銷,我們的網路架構師將與您一同進行測算。