適用於 AI Fabric 的 InfiniBand 與 Ethernet 對比

對於任何不簡單的 GPU 叢集,「直接買 InfiniBand」曾是穩妥之選,而如今這一答案正在改變。現代乙太網(具備 PFC 的 RoCEv2、ECN/DCQCN、DLB,以及即將到來的 GLB 和 UEC)彌合了大部分性能差距,同時打開了超大規模雲廠商正在邁入的多廠商、開放硬體之門。

兩張網路,兩種營運模式

左側:單一廠商的 InfiniBand fabric,只有一家 IB 晶片廠商、一套交換機、一個 NIC 生態。右側:多廠商的開放乙太網 fabric,可採用任意廠商的 RoCEv2 / UEC NIC,交換晶片來自 Broadcom,以 OcNOS-DC 作為 NOS,並沿用與資料中心其餘部分相同的協議。

InfiniBand 單廠商 fabric 對比多廠商乙太網 fabric 兩個並排的組網拓撲。左側:單供應商 InfiniBand 組網,含兩臺 IB 交換機和四塊 GPU,全部標註為同一家供應商。右側:多供應商乙太網組網,含兩臺運行 OcNOS-DC 的 leaf、兩臺 spine、四塊配備廠商中立 RoCEv2/UEC 網卡的 GPU。底部標註對比了單供應商鎖定與開放的多供應商堆棧。 INFINIBAND · SINGLE-VENDOR ETHERNET · OPEN MULTI-VENDOR IB Switch-1Quantum-class IB Switch-2Quantum-class GPUIB NIC GPUIB NIC GPUIB NIC SINGLE NIC + SWITCH VENDOR · CLOSED ECOSYSTEM UFM / SHARP · SUBNET MANAGER · NO MULTI-TENANCY Spine-1OcNOS-DC · TH5 Spine-2OcNOS-DC · TH5 GPURoCEv2/UEC GPURoCEv2/UEC GPURoCEv2/UEC MULTI-VENDOR · OPEN HARDWARE · STANDARD PROTOCOLS RoCEv2 · DLB · GLB · UEC · EVPN-VXLAN · gNMI SINGLE-VENDOR PERFORMANCE TAX vs OPEN MULTI-VENDOR ECONOMICS

客觀對比

InfiniBand 是為低延遲、無損 RDMA 而專門打造的。二十年來,這使它在緊耦合 HPC 工作負載上擁有實實在在的性能優勢。基於 DCB 協議棧、RoCEv2,以及日益成熟的 DLB 和 UEC 構建的現代乙太網,在過去幾年裡一直在縮小這一差距。剩餘的差距對某些工作負載至關重要,對另一些則無關緊要。正確答案取決於具體工作負載,而非教條之爭。

Axis InfiniBand 乙太網(RoCEv2 / UEC)
時延下限 端到端 NIC 到 NIC 時延極低;交換機單跳通常為數百納秒。 時延下限比 IB 高出數百納秒,但仍遠低於會影響大規模分布式訓練集合通信的閾值。
丟包容忍度 架構層面無損(基於信用的流量控制)。 通過 PFC + ECN + DCQCN 實現無損。如今已達生產級;UEC 進一步降低對 PFC 暫停的依賴。
多路徑 / 負載均衡 自適應路由已內置於規範中。 靜態 ECMP,外加用於自適應單跳的 DLB、用於端到端的 GLB(OcNOS 7.1),以及適用於下一代的 UEC 報文噴灑。
廠商生態系統 在 NIC 和交換機晶片方面實際上均為單一供應商。 每一層均支持多廠商:ASIC、交換機、NIC、NOS、光模組。UEC 明確為廠商中立的互操作而設計。
營運模式 子網管理器(UFM 級別)。與 DC 其餘部分不同。需要單獨的技能與單獨的工具鏈。 沿用您已在運行的 BGP、EVPN、gNMI。與資料中心其餘部分採用相同的自動化工具(Ansible、NETCONF、OpenConfig)。
Multi-tenancy 有限;存在分區機制,但並非一流概念。 通過 EVPN-VXLAN 原生支持。GPU-as-a-Service、多團隊叢集、共享基礎設施皆水到渠成。
Long-haul DCI 並非為此設計;需要 IB-over-WAN 網關。 通過 400G ZR/ZR+ 相干可插拔模組和 EVPN 跨資料中心原生實現。
儲存融合 儲存與計算並行運行;需要 IB 連接的儲存。 NVMe-oF、NFS、S3 全部運行在同一套乙太網網路上。
每埠成本(典型 400G+) 高端;單一廠商定價。 開放硬體 spine + OcNOS-DC NOS,相比廠商鎖定方案具有實質性成本優勢。
路線圖推進速度 受制於單一廠商的版本發布節奏。 UEC 聯盟(AMD、Arista、Broadcom、Cisco、HPE、Intel、Meta、Microsoft、Oracle 等)推動著公開發布的規範演進。

各自的制勝場景

何時選擇 InfiniBand

時延下限受合同約束

在 HPC 仿真負載中,每一次集合通信都至關重要,絕對時延下限比總擁有成本更為關鍵。適用於緊湊、專屬的單租戶叢集,在這類場景中廠商鎖定是可以接受的。

在以下情況選擇乙太網

運維模式至關重要

多租戶 GPU 即服務。與資料中心其餘部分共享基礎設施的 AI 叢集。凡是團隊希望採用統一運維模型、統一工具棧和多廠商供應鏈的場景,均適用。

在以下情況選擇乙太網

每 GPU 浮點運算成本是關鍵門檻

開放硬體 spine + OcNOS-DC 消除了專有網路稅。在數千 GPU 規模的叢集上,所節省的 CapEx 往往足以購買額外的 GPU 算力。

在以下情況選擇乙太網

該 fabric 可跨多個 DC 延伸

如果某次訓練任務有朝一日需要跨越兩個機房或兩個地域,乙太網將成為預設優選:相干 DCI、EVPN 資料中心間互聯以及標準的多廠商光模組,使這成為一天即可完成的工作,而非耗時一個季度的線路系統工程。

現代乙太網已彌合差距的領域

無損行為。 採用 PFC、DCQCN 的 RoCEv2,以及 OcNOS-DC PFC 死鎖看門狗 如今已達生產級水平。一旦正確配置好這些機制,「乙太網會丟包」這一質疑便不再成立。

自適應路由。 AI 工作負載上的靜態 ECMP 衝突確實存在,但 DLB 在亞毫秒級時間窗口內根據本地擁塞重新分配 flowlet,並 GLB 在 OcNOS 7.1 中將其擴展為完整的端到端路徑評分。

適配噴灑式傳輸。 Ultra Ethernet (UEC) 為標準乙太網帶來包噴灑(packet spray)、多路徑 RDMA、亂序交付以及選擇性重傳。曾定義 InfiniBand 的架構優勢,正落地於多廠商的開放協議棧之上。

TCO 探討

對於 2026 年大多數生產級 AI fabric 決策而言,在五年期內網路僅佔叢集 TCO 的 5%–8%。在同等容量下,InfiniBand 相對於開放硬體乙太網的溢價通常落在 +30% 到 +60% 區間。在一個價值 1 億美元的叢集中,這是一個不容忽視的數字,但更重要的數字是節省下來的 CapEx 能為您帶來什麼(更多 GPU、更大的儲存層、用於高可用的第二站點)。而對於網路為多租戶或與資料中心其餘部分共享的叢集,統一網路模型所帶來的運維簡化,其價值高於這一單項的成本差異。

IP Infusion 的觀點

  • 兩者各有用武之地。 我們不會假裝乙太網能在每種工作負載中都勝出。對延遲有絕對下限要求的緊耦合 HPC 叢集,在一段時間內仍會繼續選購 InfiniBand。
  • 大多數 AI 網路都應構建在乙太網之上。 超大規模的生產級 AI 訓練與推理正在轉向乙太網,因為一旦技術差距縮小,其運維和經濟上的優勢便壓倒性地明顯,而這一差距正在快速縮小。
  • OcNOS-DC 是開放之路。 當前支持 RoCEv2,當前支持 DLB,下一步支持 GLB,並將隨網卡上市支持 UEC。一套 NOS、一份特性路線圖,運行於來自 Edgecore、UfiSpace、Wedge 等廠商的經過驗證的開放硬體之上。
  • 架構評審免費提供。 如果您正在規劃網路規模,並希望獲得針對具體工作負載的分析而非廠商推銷,我們的網路架構師將與您一同進行測算。

為下一個叢集選擇 IB 還是乙太網?讓我們做一次針對具體工作負載的測算。

預約架構評審 →