Disponible en OcNOS 7.1

Global Load Balancing: enrutamiento adaptativo en toda la fabric

DLB toma la decisión correcta en un salto; GLB toma la decisión correcta en todo el fabric. Disponible en OcNOS 7.1, Global Load Balancing extiende el enrutamiento adaptativo desde una vista por puerto hasta la calidad de ruta de extremo a extremo, cerrando la brecha de puntos calientes multisalto en fabrics de IA Clos de 3 etapas hasta el límite máximo de 16k GPU.

Telemetría de ruta de extremo a extremo

Un segmento Clos de 3 etapas (leaf, spine, super-spine) que transporta AllReduce de GPU. Cada nivel transmite telemetría de ocupación de colas y de utilización de enlaces de vuelta hacia los leaves de ingreso. GLB elige la ruta con la mejor end-to-end puntuación, no la mejor puntuación de salida local.

Balanceo de carga global en un fabric de AI Clos de 3 etapas Fabric de IA Clos de tres etapas. Dos super-spines arriba, cuatro spines en el medio, dos leaves abajo. Las flechas de telemetría fluyen hacia arriba y de vuelta hacia abajo para que el leaf de ingreso vea la calidad de ruta de extremo a extremo. Un enlace de spine a super-spine está congestionado y se evita en favor de una ruta alternativa de extremo a extremo. telemetría de extremo a extremo Super-Spine-1TH5 · 51.2T Super-Spine-2TH5 · 51.2T Spine-1e2e ✓ Spine-2e2e ✓ Spine-3uplink saturado Spine-4e2e ✓ Leaf de ingresoGLB · clasifica rutas Leaf de egresorack objetivo GLB · PUNTUACIÓN DE RUTA DE EXTREMO A EXTREMO · CONCIENCIA DE CONGESTIÓN MULTISALTO · OcNOS 7.1

El problema del hot-spot multisalto

DLB puntúa cada siguiente salto ECMP utilizando local profundidad de cola de egreso: lo que está ocurriendo en el puerto de salida de este switch. Eso es óptimo en un leaf-spine de 2 niveles. Pero escale a un Clos de 3 niveles y podrá elegir un spine con un uplink limpio, solo para aterrizar en un super-spine donde su downlink de regreso al leaf de egreso está congestionado. La vista local es correcta; la vista de extremo a extremo es incorrecta.

En fabrics de 1.024 GPU y mayores, el tamaño en el que un Clos de 3 etapas con super-spines se convierte en la topología estándar, esta es la fuente dominante restante de valores atípicos de latencia de cola. OcNOS 7.1 introduce el Global Load Balancing para resolverlo: cada nivel publica telemetría de calidad de ruta de vuelta hacia los leaves de ingreso, de modo que la decisión de ingreso se basa en una puntuación completa de extremo a extremo.

DLB frente a GLB: alcance de la decisión de ruta

Local: DLB

Enrutamiento adaptativo por salto

Cada switch clasifica sus propios next-hops de ECMP usando la profundidad de la cola de egreso local y la utilización del enlace. Excelente para fabrics de 2 etapas y el salto leaf→spine en los de 3 etapas. Disponible hoy en TH4 / TH5.

Global: GLB · 7.1

Puntuación de rutas de extremo a extremo

Cada nivel publica telemetría de congestión de vuelta a los leaves de ingreso. El ingreso clasifica las rutas completas (leaf→spine→super-spine→spine→leaf) y selecciona en función de una puntuación de calidad de toda la fabric, no solo del salto local.

La implementación de GLB de OcNOS 7.1

Plano de telemetría

Publicación de calidad de ruta

Cada spine y super-spine publica la ocupación de cola por puerto y los deltas de utilización en una adyacencia que abarca todo el fabric. Las actualizaciones son de menos de un milisegundo y utilizan la señalización in-band existente, sin tráfico adicional en el plano de control.

Puntuación de rutas

Agregación de extremo a extremo

Los leafs de ingreso combinan la calidad de egreso local con la telemetría aguas abajo para calcular una puntuación agregada por ruta candidata. El peor salto domina la puntuación, la misma intuición que utilizan los operadores al resolver problemas.

Selection

Flowlet-aligned

Al igual que DLB, GLB reasigna en los límites de flowlet, preservando la entrega en orden para RoCEv2 y TCP. La diferencia está en lo que alimenta la decisión: la calidad de toda la fabric, no la calidad del puerto local.

Backwards-Compatible

Superpuesto sobre DLB

GLB amplía la decisión de DLB; no la reemplaza. Las fabrics mixtas con switches compatibles con GLB y switches solo DLB se comportan correctamente: los switches sin GLB simplemente aportan calidad local únicamente.

Scale

Hasta el techo de 16k GPU

Diseños de referencia con niveles spine de 256 puertos y niveles super-spine de 64 puertos, dimensionados para el techo arquitectónico de 16.384 GPU utilizando chasis TH5 de 64×800G como bloque constructivo.

Salida de telemetría

gNMI para el equipo de operaciones

Puntuaciones por ruta, eventos de rebind y atribución del peor salto se transmiten por gNMI/OpenConfig, los SRE pueden correlacionar las decisiones del fabric con el comportamiento de los jobs de colectivos xCCL (NCCL / RCCL / oneCCL) sin efecto de caja negra.

Hoja de ruta y disponibilidad

  • OcNOS 7.1, primera versión. GLB se incluye como parte del tren OcNOS-DC 7.1, sobre el mismo hardware TH4 / TH5 que ejecuta DLB hoy en día. El calendario y el alcance de funciones en el Página de versiones de OcNOS.
  • Mismo SKU. Incluido en OcNOS-DC PLUS: sin barreras de pago por función, sin nuevas claves de licencia al momento de actualizar.
  • Actualización in situ. La actualización brownfield de 7.0 a 7.1 es compatible; los fabrics de versiones mixtas siguen funcionando con comportamiento solo DLB durante la ventana de actualización.
  • UEC-aligned. El plano de calidad de ruta se está diseñando para interoperar con la señalización del Ultra Ethernet Consortium una vez que maduren los ecosistemas de NIC con UEC, de modo que 7.1 GLB es compatible con la dirección hacia la que se encamina la industria. Consulte Ultra Ethernet (UEC).
  • Revisión de arquitectura disponible. Si está dimensionando una red de más de 1k GPU, realizaremos un ejercicio de dimensionamiento que incluye el plano de telemetría de GLB.

¿Está dimensionando un fabric de varios miles de GPU? Hagamos los cálculos juntos.

Reserve una revisión de arquitectura →