EVPN Multi-Homing: ESI-LAG Active/Active

将一台 AI 服务器接入两台 leaf,两块 NIC 同时活跃并转发,没有 active/standby 的浪费。EVPN multi-homing(RFC 7432,ESI-LAG)是借助 BGP 和 Ethernet Segment Identifier 实现这一目标的标准化方式:无需专有的 MLAG 布线,也无需交换机间的同步链路。

主/主服务器接入

配备两块绑定 NIC 的 GPU 服务器接入两台 leaf 交换机。两台 leaf 共享同一个 Ethernet Segment ID(ESI)。两者均以相同的 ESI 将该服务器的 MAC 通告进 EVPN。远端 leaf 将二者均安装为 ECMP 下一跳,在 ESI 对等体之间实现 aliasing。链路故障时,mass-withdraw 将收敛时间压缩至 BGP 传播时间。

采用 ESI-LAG Active/Active 的 EVPN 多归属 该拓扑展示了一台 GPU 服务器通过绑定网卡连接至两台 leaf。两台 leaf 共享同一个 Ethernet Segment Identifier(ESI)。这两台 leaf 向上连接至两台 spine。底部的一台远端 leaf 通过 EVPN aliasing 将 leaf-1 和 leaf-2 同时安装为 ECMP 下一跳。底部条带说明了 ESI、指定转发者(designated forwarder)以及批量撤销(mass-withdraw)。 ESI 00:11:22:33:44:55:00:01 GPU Srv2 × NIC 绑定 Leaf-1 (DF)VTEP 10.0.0.1 Leaf-2 (non-DF)VTEP 10.0.0.2 Spine-1EVPN RR / ECMP Spine-2EVPN RR / ECMP Leaf-Remote别名归一 → ECMP EVPN ESI-LAG · ALIASING ECMP · DESIGNATED FORWARDER · MASS-WITHDRAW · RFC 7432

为何选择 ESI-LAG 而非 MLAG

传统的多机箱 LAG(MLAG)可实现服务器主/主接入,但代价是专有的机箱间链路(ICL)、各厂商私有的同步协议,以及 leaf 型号之间需整机更换的兼容性约束。 EVPN 多归属以 BGP 和六字节的以太网段标识符(Ethernet Segment Identifier)取代上述全部机制。

借助 EVPN 多归属,两台 leaf 无需直接相互感知。它们都在相关的 Ethernet Segment 上通告相同的 ESI,由 EVPN 控制平面负责指定转发者选举、aliasing 和批量撤销。这两台 leaf 可以来自不同厂商、不同代际,甚至是不同平台。只要它们正确地运行 EVPN 和 ESI-LAG,多归属就能正常工作。

四种 EVPN 多归属原语

Type-1 路由

按 ESI / 按 EVI 自动发现

每个 leaf 都会为该 ESI 通告 Type-1(自动发现)路由。接收方据此获知哪些 leaf 参与该 segment,并将其用于别名(aliasing)和故障时的批量撤销(mass-withdraw)。

Type-4 路由

Ethernet Segment 路由

Type-4 路由在挂接到同一 ESI 的各 leaf 之间驱动 Designated Forwarder 选举。DF 负责将 BUM(广播/未知/组播)流量转发至该网段。

Aliasing

跨 ESI 对等体的 ECMP

远端 VTEP 部署 both 叶交换机 VTEP 作为该网段各 MAC 的下一跳。单播流量通过 ECMP 在两条路径上分担:实现 Active/Active 利用率,且无需按流绑定(per-flow stickiness)。

批量撤销

故障时亚秒级收敛

当某个 leaf 与服务器之间的链路中断时,它会撤销其 Type-1 ESI 路由。远端 VTEP 在单次更新中即可收敛该 ESI 的下一跳集合。不会出现逐 MAC 的撤销风暴。

水平分割

BUM 环路防护

非 DF 与 DF 通过网段的 local-bias 机制协同,防止 BUM 帧回环至其源服务器。ESI 标签的水平分割(split-horizon)过滤使这一过程在数据平面上无状态。

VLAN-Aware

业务接口灵活性

OcNOS 同时支持基于 VLAN 和 VLAN 感知的业务接口,并支持按 EVI 进行 ESI 配置。可根据部署需求混合租户和物理分段拓扑。

这在生产环境中能为你带来什么

  • 基于标准的冗余。 RFC 7432 和 RFC 8365:每一家现代 DC 厂商都实现的同一套协议。没有专有附加成本,也没有 leaf 厂商锁定。
  • 带宽利用率提升 2 倍。 两块网卡均转发实时流量,没有主/备模式的浪费。这对于以 2× 200G 或 2× 400G 接入叶节点为布线基线的 AI 服务器至关重要。
  • 亚秒级链路故障收敛。 批量撤销可将收敛事件压缩至 BGP 传播时间,在经过调优的 fabric 上通常在一秒以内。
  • 无需 ICL 线缆。 MLAG 机箱间链路随之消失。布线、端口占用,以及 ICL 脑裂的故障模式复杂性全部消失。
  • 多厂商叶节点对。 同一 ESI 上的两个 leaf 无需为相同型号或相同厂商。EVPN 负责协议层;数据平面只负责转发。
  • 已在 OcNOS-DC 中验证。 ESI-LAG Active/Active 属于 DC-IPBASE 功能集:在每一款受支持的 Tomahawk 和 Trident 平台上均达到生产级标准。

正在为 AI fabric 设计 leaf 冗余?让我们一起规划 ESI。

申请技术演示 →