OcNOS 7.1에서 제공 예정

Global Load Balancing: 패브릭 전반의 적응형 라우팅

DLB는 한 홉에서 올바른 결정을 내리고, GLB는 패브릭 전체에 걸쳐 올바른 결정을 내립니다. OcNOS 7.1에 도입되는 Global Load Balancing은 적응형 라우팅을 포트별 관점에서 종단 간 경로 품질로 확장하여, 최대 16k-GPU 한계에 이르는 3단 Clos AI 패브릭에서 멀티홉 핫스팟 격차를 해소합니다.

엔드투엔드 경로 텔레메트리

GPU AllReduce를 전달하는 3-스테이지 Clos 슬라이스(리프, 스파인, 슈퍼 스파인)입니다. 모든 계층은 큐 점유율과 링크 활용률 텔레메트리를 인그레스 리프로 다시 스트리밍합니다. GLB는 최적의 경로를 선택합니다. end-to-end 점수이며, 최적의 로컬 이그레스 점수가 아닙니다.

3-stage Clos AI fabric 전반의 Global Load Balancing 3단 Clos AI 패브릭입니다. 상단에 두 개의 슈퍼 스파인, 중간에 네 개의 스파인, 하단에 두 개의 리프가 있습니다. 텔레메트리 화살표는 위로 흐른 뒤 다시 아래로 흐르므로 인그레스 리프가 종단 간 경로 품질을 확인할 수 있습니다. 하나의 스파인-슈퍼 스파인 링크가 혼잡 상태가 되어 대체 종단 간 경로를 위해 우회됩니다. 엔드투엔드 텔레메트리 Super-Spine-1TH5 · 51.2T Super-Spine-2TH5 · 51.2T Spine-1e2e ✓ Spine-2e2e ✓ Spine-3업링크 과부하 Spine-4e2e ✓ Ingress LeafGLB · 경로 순위 지정 Egress Leaf대상 랙 GLB · END-TO-END PATH SCORING · MULTI-HOP CONGESTION AWARENESS · OcNOS 7.1

멀티홉 핫스팟 문제

DLB는 다음을 사용해 각 ECMP 넥스트홉을 평가합니다: local egress queue 깊이: 이 스위치의 outbound 포트에서 일어나는 상황입니다. 2계층 leaf-spine에서는 이것이 최적입니다. 그러나 3계층 Clos로 확장하면, 깨끗한 uplink를 가진 spine을 선택하더라도 결국 super-spine에 도달하게 되며, 그곳에서는 downlink egress leaf로 돌아가는 경로가 혼잡합니다. 로컬 관점은 정확하지만, 종단 간 관점은 잘못되었습니다.

super-spine을 갖춘 3-stage Clos가 표준 토폴로지가 되는 1,024-GPU 이상 규모의 패브릭에서, 이것이 tail-latency 이상치의 가장 지배적인 잔존 원인입니다. OcNOS 7.1은 Global Load Balancing을 도입합니다 이를 해결하기 위해: 모든 계층이 경로 품질 텔레메트리를 인그레스 리프 방향으로 게시하므로, 인그레스 결정이 완전한 엔드투엔드 점수를 기반으로 이루어집니다.

DLB vs GLB: 경로 결정의 범위

로컬: DLB

홉 단위 적응형 라우팅

각 switch는 로컬 egress queue-depth와 링크 사용률을 기준으로 자체 ECMP next-hop의 순위를 매깁니다. 2단계 fabric과 3단계 fabric의 leaf→spine 홉에 탁월합니다. TH4 / TH5에서 현재 사용 가능합니다.

글로벌: GLB · 7.1

엔드투엔드 경로 스코어링

모든 계층은 혼잡 텔레메트리를 인그레스 리프로 다시 발행합니다. 인그레스는 전체 경로(leaf→spine→super-spine→spine→leaf)의 순위를 매기고, 로컬 홉만이 아닌 전체 패브릭 품질 점수를 기준으로 선택합니다.

OcNOS 7.1 GLB 구현

텔레메트리 플레인

경로 품질 게시

모든 spine과 super-spine은 포트별 queue 점유율과 사용률 변화를 패브릭 전역의 인접 관계에 게시합니다. 업데이트는 밀리초 미만이며 기존 in-band 시그널링을 사용하므로, 추가적인 control-plane 트래픽이 없습니다.

경로 점수화

엔드투엔드 애그리게이션

ingress leaf는 로컬 egress 품질과 다운스트림 텔레메트리를 결합하여 후보 경로별 종합 점수를 산출합니다. 가장 나쁜 hop이 점수를 좌우하며, 이는 사업자가 트러블슈팅할 때 사용하는 것과 동일한 직관입니다.

Selection

Flowlet-aligned

DLB와 마찬가지로 GLB는 flowlet 경계에서 재바인딩하여 RoCEv2와 TCP의 순서 보장 전달을 유지합니다. 차이는 판단의 근거에 있습니다. 로컬 포트 품질이 아니라 패브릭 전체 품질을 기준으로 합니다.

Backwards-Compatible

DLB 위에 계층화

GLB는 DLB의 판단을 확장하며, 대체하지 않습니다. GLB 지원 스위치와 DLB 전용 스위치가 혼재된 패브릭도 올바르게 동작합니다. 비 GLB 스위치는 단순히 로컬 한정 품질만 기여합니다.

Scale

최대 16k-GPU 한도까지

256-port spine 계층과 64-port super-spine 계층의 레퍼런스 디자인으로, 64×800G TH5 섀시를 기본 구성 단위로 사용해 16,384-GPU 아키텍처 한계 규모에 맞춰 설계되었습니다.

텔레메트리 출력

운영팀을 위한 gNMI

경로별 스코어, rebind 이벤트, worst-hop 귀인(attribution) 정보가 gNMI/OpenConfig를 통해 스트리밍됩니다, SRE는 패브릭 결정과 xCCL (NCCL / RCCL / oneCCL) 집합 통신 작업 동작을 블랙박스 없이 상관 분석할 수 있습니다.

로드맵 및 가용성

  • OcNOS 7.1, 첫 릴리스. GLB는 오늘날 DLB를 구동하는 것과 동일한 TH4 / TH5 하드웨어에서 7.1 OcNOS-DC 트레인의 일부로 제공됩니다. 일정과 기능 범위는 다음에서 확인하세요: OcNOS 릴리스 페이지.
  • 동일 SKU. OcNOS-DC PLUS에 포함: 기능별 유료 장벽 없음, 업그레이드 시 새 라이선스 키 불필요.
  • 무중단 업그레이드. 7.0에서 7.1로의 brownfield 업그레이드가 지원되며, 혼합 버전 fabric은 업그레이드 기간 동안 DLB 전용 동작으로 정상 작동을 유지합니다.
  • UEC-aligned. 경로 품질 플레인은 UEC NIC 에코시스템이 성숙해지면 Ultra Ethernet Consortium 시그널링과 상호 운용되도록 설계되고 있어, 7.1 GLB는 업계가 나아가는 방향과 전방 호환됩니다. 참고: Ultra Ethernet (UEC).
  • 아키텍처 검토 제공 가능. 1k 개 이상의 GPU 패브릭을 설계 중이시라면, GLB 텔레메트리 플레인을 포함한 사이징 작업을 진행해 드립니다.

수천 개 GPU 규모의 패브릭 사이징이 필요하신가요? 함께 수치를 계산해 보겠습니다.

아키텍처 리뷰 예약하기 →