EVPN Multi-Homing: ESI-LAG Active/Active

Conecte un servidor de IA a dos leaves con ambas NIC activas y reenviando, sin desperdicio de activo/en espera. El multi-homing EVPN (RFC 7432, ESI-LAG) es la forma basada en estándares de lograrlo usando BGP y un Ethernet Segment Identifier: sin cableado MLAG propietario, sin enlace de sincronización entre switches.

Conexión de servidor activo/activo

Un servidor GPU con dos NIC en bonding se conecta a dos leaves. Ambos leaves comparten el mismo Ethernet Segment ID (ESI). Ambos anuncian la MAC del servidor en EVPN con el mismo ESI. Los leaves remotos instalan ambos como next-hops ECMP, aplicando aliasing entre los pares del ESI. Ante un fallo de enlace, el mass-withdraw reduce la convergencia al tiempo de propagación de BGP.

Multi-homing EVPN con ESI-LAG Activo/Activo Topología que muestra un servidor de GPU con NIC en bonding conectadas a dos leaves. Ambos leaves comparten un Ethernet Segment Identifier (ESI). Los leaves se conectan hacia arriba con dos spines. Un leaf remoto en la parte inferior instala tanto leaf-1 como leaf-2 como saltos siguientes ECMP mediante aliasing de EVPN. La banda inferior describe el ESI, el reenviador designado (designated forwarder) y el mass-withdraw. ESI 00:11:22:33:44:55:00:01 GPU Srvbond de 2 × NIC Leaf-1 (DF)VTEP 10.0.0.1 Leaf-2 (non-DF)VTEP 10.0.0.2 Spine-1EVPN RR / ECMP Spine-2EVPN RR / ECMP Leaf-Remotealiasing → ECMP EVPN ESI-LAG · ALIASING ECMP · DESIGNATED FORWARDER · MASS-WITHDRAW · RFC 7432

Por qué ESI-LAG en lugar de MLAG

El Multi-Chassis LAG (MLAG) tradicional le proporciona conexión activo/activo de servidores, pero a costa de un Inter-Chassis Link (ICL) propietario, protocolos de sincronización específicos de cada fabricante y restricciones de compatibilidad de tipo forklift entre los modelos de leaf. El multi-homing de EVPN reemplaza todo eso con BGP y un Ethernet Segment Identifier de seis bytes.

Con el multi-homing de EVPN, los dos leaves no necesitan conocerse directamente entre sí. Ambos anuncian el mismo ESI en el Ethernet Segment correspondiente, y el plano de control de EVPN gestiona la elección del designated forwarder, el aliasing y el mass-withdraw. Los leaves pueden ser de distintos proveedores, de distintas generaciones, incluso de distintas plataformas. Mientras hablen EVPN y ESI-LAG correctamente, el multi-homing funciona.

Las cuatro primitivas de multi-homing de EVPN

Ruta Type-1

Descubrimiento automático por ESI / por EVI

Cada leaf anuncia rutas Type-1 (Auto-Discovery) para el ESI. Los receptores aprenden qué leaves participan en el segmento y lo utilizan para aliasing y mass-withdraw en caso de fallo.

Ruta Type-4

Ruta de Ethernet Segment

Las rutas de Type-4 impulsan la elección del Designated Forwarder entre los leaves conectados al mismo ESI. El DF es responsable de reenviar el tráfico BUM (broadcast/unknown/multicast) hacia el segmento.

Aliasing

ECMP a través de los pares ESI

Los VTEPs remotos se instalan both VTEPs leaf como next-hops para las MACs del segmento. El tráfico unicast se distribuye por ECMP entre las dos rutas: utilización Activo/Activo sin adherencia por flujo.

Retiro masivo

Convergencia subsegundo ante fallos

Cuando un leaf pierde su enlace con el servidor, retira su ruta ESI Type-1. Los VTEP remotos colapsan el conjunto de next-hop del ESI en una única actualización. Sin tormenta de retiradas por MAC.

Split Horizon

Prevención de bucles BUM

El no-DF y el DF se coordinan mediante el sesgo local del segmento para evitar que una trama BUM regrese en bucle a su servidor de origen. El filtrado split-horizon por etiqueta ESI hace que esto sea sin estado en el plano de datos.

VLAN-Aware

Flexibilidad de la interfaz de servicio

OcNOS admite interfaces de servicio tanto VLAN-Based como VLAN-Aware, con configuración ESI por EVI. Combine topologías de inquilinos y de segmento físico según lo requiera la implementación.

Lo que esto le aporta en producción

  • Redundancia basada en estándares. RFC 7432 y RFC 8365: el mismo protocolo que implementa todo proveedor moderno de DC. Sin impuesto propietario, sin bloqueo propietario al proveedor de leaf.
  • 2× de utilización del ancho de banda. Ambas NICs reenvían tráfico en vivo; sin desperdicio de Activo/Pasivo. Crítico para servidores de IA donde 2× 200G o 2× 400G hacia el leaf es la base del cableado.
  • Convergencia ante fallos de enlace en menos de un segundo. La retirada masiva reduce el evento de convergencia al tiempo de propagación de BGP, normalmente dentro de un segundo en un fabric optimizado.
  • Sin cable ICL. El enlace inter-chasis de MLAG desaparece. El cableado, el consumo de puertos y la complejidad del modo de fallo del split-brain del ICL desaparecen todos.
  • Pares de leaf multifabricante. Los dos leaves en el mismo ESI no necesitan ser del mismo modelo ni del mismo proveedor. EVPN gestiona el protocolo; el plano de datos simplemente reenvía.
  • Validado en OcNOS-DC. ESI-LAG Activo/Activo forma parte del conjunto de funciones DC-IPBASE: de nivel producción en cada plataforma Tomahawk y Trident compatible.

¿Diseña la redundancia de leaves para una AI fabric? Especifiquemos los ESIs juntos.

Solicite una demostración técnica →