Alineado con UEC 1.0

Ultra Ethernet: UEC 1.0 para AI Fabrics

Ultra Ethernet es la respuesta abierta de la industria a la pregunta de si Ethernet puede reemplazar a InfiniBand para el entrenamiento de billones de parámetros. La especificación 1.0 del Ultra Ethernet Consortium rediseña el transporte con packet spray, RDMA multi-path, entrega desordenada y control de congestión moderno, y OcNOS proporciona la capa de fabric basada en estándares que requieren las NIC UEC.

Dispersión de paquetes por cada ruta

Un solo mensaje RDMA entre dos GPU se distribuye paquete por paquete simultáneamente a través de las cuatro rutas spine. La red tolera la llegada fuera de orden; la NIC UEC de destino reensambla en orden. Sin fijación de flujos (flow-pinning), sin colisiones de hash, sin enlaces ascendentes inactivos.

Distribución de paquetes Ultra Ethernet a través de una fabric de 4 spines Dos GPU conectadas a través de dos leaves y cuatro spines. Un único mensaje RDMA se divide en cuatro paquetes y se envía simultáneamente por las cuatro rutas de spine. En la NIC receptora, los paquetes llegan desordenados y se reensamblan en orden antes de su entrega a la GPU. La banda inferior enumera las propiedades de UEC: packet spray, multi-path, entrega desordenada y reensamblaje en la NIC. P1 P2 P3 P4 Spine-1fabric UEC Spine-2fabric UEC Spine-3fabric UEC Spine-4fabric UEC Leaf-1Habilitado para UEC Leaf-2Habilitado para UEC GPU-AUEC NIC GPU-Breassembly UEC 1.0 · PACKET SPRAY · MULTI-PATH RDMA · OUT-OF-ORDER DELIVERY · NIC REASSEMBLY

Por qué UEC importa ahora

RoCEv2 fue la primera generación de "RDMA sobre Ethernet". Funciona, pero hereda las limitaciones de diseño de TCP/IP sobre Ethernet de una época distinta. Un único flujo por (5-tuple, hash) significa que las colectivas de GPU pueden saturar una ruta mientras las rutas paralelas permanecen inactivas. La propagación de pausas de PFC puede causar bloqueo de cabeza de línea y, en topologías patológicas, deadlock. La recuperación de pérdidas basada en NACK impone un costo en la latencia de cola.

The Ultra Ethernet Consortium, respaldada por AMD, Arista, Broadcom, Cisco, HPE, Intel, Meta, Microsoft, Oracle y otros, publicó la especificación UEC 1.0 para rediseñar el transporte a escala de IA. Conserva el Ethernet físico estándar que puede comprar a cualquiera, y reemplaza las capas superiores con un transporte construido para trabajos de 1k a 100k GPU.

Los cuatro pilares de UEC

Packet spray

Un solo mensaje se distribuye por cada ruta disponible. Sin fijación de flujo. Sin colisiones de ECMP. La utilización del fabric se aproxima al máximo teórico.

Entrega fuera de orden

Se permite que el fabric reordene. El UEC NIC reensambla en orden antes de la entrega, de modo que las aplicaciones y la GPU nunca ven el desorden.

Control de congestión moderno

Los esquemas basados en el emisor y dirigidos por el receptor reemplazan la pausa PFC gruesa como herramienta principal. La pausa se convierte en un respaldo, no en la primera línea.

Retransmisión selectiva

Los paquetes perdidos se recuperan de forma selectiva en lugar de reiniciar la ventana de RDMA, lo que reduce drásticamente la penalización de latencia de cola de cualquier pérdida dentro del fabric.

La implementación de UEC de OcNOS

Spec

Perfil de tejido UEC 1.0

OcNOS-DC implementa el perfil del lado del fabric de UEC 1.0: la configuración y los comportamientos que los switches deben admitir para interoperar con NICs compatibles con UEC.

Spray-Friendly

Reenvío tolerante a paquetes fuera de orden

ECMP por paquete, QoS compatible con packet-spray y políticas de buffer compartido que no penalizan la entrega desordenada: las condiciones que las NIC UEC necesitan para operar de manera eficiente.

Hardware

Silicio TH4 / TH5

Funciona sobre las mismas plataformas Broadcom Tomahawk 4 (25.6T) y Tomahawk 5 (51.2T) usadas para los fabrics RoCEv2 actuales. No requiere una actualización completa de hardware.

Brownfield

Coexistencia RoCEv2 + UEC

El tráfico UEC y RoCEv2 comparte el mismo fabric en prioridades diferentes. Migre los clústeres de forma incremental a medida que se despliegan NIC compatibles con UEC.

Telemetría

Observabilidad consciente de UEC

Utilización por ruta, contadores de buffer aptos para distribución y métricas de tolerancia al reordenamiento transmitidos por gNMI para ajuste de lazo cerrado durante la puesta en marcha del clúster.

Hardware abierto

Ruta neutral respecto al proveedor

UEC es la alternativa abierta a InfiniBand. Combinar OcNOS-DC compatible con UEC con hardware abierto significa que ningún proveedor único es dueño de la fabric de IA, que es de lo que se trata todo esto.

UEC frente a RoCEv2 frente a InfiniBand: dónde encaja cada uno

  • RoCEv2 hoy. De nivel producción para clústeres construidos en este momento. OcNOS-DC se entrega con RoCEv2 preajustado en TH4 / TH5: consulte el RoCEv2 deep-dive. La mayoría de las fabrics en producción en 2026 son RoCEv2.
  • UEC mañana. El camino a seguir para los clústeres scale-out a medida que las NICs UEC se envían en volumen. OcNOS proporciona la capa de fabric; los propietarios del clúster eligen el proveedor de la NIC.
  • InfiniBand. Bloqueo de rendimiento de un solo proveedor. Cableado distinto, gestión distinta, ecosistema separado. UEC cierra la brecha de rendimiento en una fabric Ethernet multiproveedor basada en estándares.
  • La coexistencia es la opción por defecto. Las fabrics reales transportan tráfico RoCEv2 de clústeres existentes y tráfico UEC de la construcción de nueva generación, uno junto al otro. OcNOS-DC admite ambos en el mismo hardware.
  • Forward-looking GLB. El OcNOS 7.1 Global Load Balancing el plano de calidad de ruta se está diseñando para interoperar con la señalización UEC a medida que la especificación madura, de modo que las inversiones en OcNOS-DC de hoy se mantienen a futuro.

¿Planifica un fabric de IA listo para UEC? Diseñémoslo juntos.

Reserve una revisión de arquitectura →