EVPN Multi-Homing: ESI-LAG Active/Active

將一臺 AI 伺服器接入兩臺 leaf,兩塊 NIC 同時活躍並轉發,沒有 active/standby 的浪費。EVPN multi-homing(RFC 7432,ESI-LAG)是藉助 BGP 和 Ethernet Segment Identifier 實現這一目標的標準化方式:無需專有的 MLAG 布線,也無需交換機間的同步鏈路。

主/主伺服器接入

配備兩塊綁定 NIC 的 GPU 伺服器接入兩臺 leaf 交換機。兩臺 leaf 共享同一個 Ethernet Segment ID(ESI)。兩者均以相同的 ESI 將該伺服器的 MAC 通告進 EVPN。遠端 leaf 將二者均安裝為 ECMP 下一跳,在 ESI 對等體之間實現 aliasing。鏈路故障時,mass-withdraw 將收斂時間壓縮至 BGP 傳播時間。

採用 ESI-LAG Active/Active 的 EVPN 多歸屬 該拓撲展示了一臺 GPU 伺服器通過綁定網卡連接至兩臺 leaf。兩臺 leaf 共享同一個 Ethernet Segment Identifier(ESI)。這兩臺 leaf 向上連接至兩臺 spine。底部的一臺遠端 leaf 通過 EVPN aliasing 將 leaf-1 和 leaf-2 同時安裝為 ECMP 下一跳。底部條帶說明了 ESI、指定轉發者(designated forwarder)以及批量撤銷(mass-withdraw)。 ESI 00:11:22:33:44:55:00:01 GPU Srv2 × NIC 綁定 Leaf-1 (DF)VTEP 10.0.0.1 Leaf-2 (non-DF)VTEP 10.0.0.2 Spine-1EVPN RR / ECMP Spine-2EVPN RR / ECMP Leaf-Remote別名歸一 → ECMP EVPN ESI-LAG · ALIASING ECMP · DESIGNATED FORWARDER · MASS-WITHDRAW · RFC 7432

為何選擇 ESI-LAG 而非 MLAG

傳統的多機箱 LAG(MLAG)可實現伺服器主/主接入,但代價是專有的機箱間鏈路(ICL)、各廠商私有的同步協議,以及 leaf 型號之間需整機更換的兼容性約束。 EVPN 多歸屬以 BGP 和六位元組的乙太網段標識符(Ethernet Segment Identifier)取代上述全部機制。

藉助 EVPN 多歸屬,兩臺 leaf 無需直接相互感知。它們都在相關的 Ethernet Segment 上通告相同的 ESI,由 EVPN 控制平面負責指定轉發者選舉、aliasing 和批量撤銷。這兩臺 leaf 可以來自不同廠商、不同代際,甚至是不同平台。只要它們正確地運行 EVPN 和 ESI-LAG,多歸屬就能正常工作。

四種 EVPN 多歸屬原語

Type-1 路由

按 ESI / 按 EVI 自動發現

每個 leaf 都會為該 ESI 通告 Type-1(自動發現)路由。接收方據此獲知哪些 leaf 參與該 segment,並將其用於別名(aliasing)和故障時的批量撤銷(mass-withdraw)。

Type-4 路由

Ethernet Segment 路由

Type-4 路由在掛接到同一 ESI 的各 leaf 之間驅動 Designated Forwarder 選舉。DF 負責將 BUM(廣播/未知/組播)流量轉發至該網段。

Aliasing

跨 ESI 對等體的 ECMP

遠端 VTEP 部署 both 葉交換機 VTEP 作為該網段各 MAC 的下一跳。單播流量通過 ECMP 在兩條路徑上分擔:實現 Active/Active 利用率,且無需按流綁定(per-flow stickiness)。

批量撤銷

故障時亞秒級收斂

當某個 leaf 與伺服器之間的鏈路中斷時,它會撤銷其 Type-1 ESI 路由。遠端 VTEP 在單次更新中即可收斂該 ESI 的下一跳集合。不會出現逐 MAC 的撤銷風暴。

水平分割

BUM 環路防護

非 DF 與 DF 通過網段的 local-bias 機制協同,防止 BUM 幀迴環至其源伺服器。ESI 標籤的水平分割(split-horizon)過濾使這一過程在數據平面上無狀態。

VLAN-Aware

業務接口靈活性

OcNOS 同時支持基於 VLAN 和 VLAN 感知的業務接口,並支持按 EVI 進行 ESI 配置。可根據部署需求混合租戶和物理分段拓撲。

這在生產環境中能為你帶來什麼

  • 基於標準的冗餘。 RFC 7432 和 RFC 8365:每一家現代 DC 廠商都實現的同一套協議。沒有專有附加成本,也沒有 leaf 廠商鎖定。
  • 頻寬利用率提升 2 倍。 兩塊網卡均轉發實時流量,沒有主/備模式的浪費。這對於以 2× 200G 或 2× 400G 接入葉節點為布線基線的 AI 伺服器至關重要。
  • 亞秒級鏈路故障收斂。 批量撤銷可將收斂事件壓縮至 BGP 傳播時間,在經過調優的 fabric 上通常在一秒以內。
  • 無需 ICL 線纜。 MLAG 機箱間鏈路隨之消失。布線、埠佔用,以及 ICL 腦裂的故障模式複雜性全部消失。
  • 多廠商葉節點對。 同一 ESI 上的兩個 leaf 無需為相同型號或相同廠商。EVPN 負責協議層;數據平面只負責轉發。
  • 已在 OcNOS-DC 中驗證。 ESI-LAG Active/Active 屬於 DC-IPBASE 功能集:在每一款受支持的 Tomahawk 和 Trident 平台上均達到生產級標準。

正在為 AI fabric 設計 leaf 冗餘?讓我們一起規劃 ESI。

申請技術演示 →