Global Load Balancing: 패브릭 전반의 적응형 라우팅
DLB는 한 홉에서 올바른 결정을 내리고, GLB는 패브릭 전체에 걸쳐 올바른 결정을 내립니다. OcNOS 7.1에 도입되는 Global Load Balancing은 적응형 라우팅을 포트별 관점에서 종단 간 경로 품질로 확장하여, 최대 16k-GPU 한계에 이르는 3단 Clos AI 패브릭에서 멀티홉 핫스팟 격차를 해소합니다.
엔드투엔드 경로 텔레메트리
GPU AllReduce를 전달하는 3-스테이지 Clos 슬라이스(리프, 스파인, 슈퍼 스파인)입니다. 모든 계층은 큐 점유율과 링크 활용률 텔레메트리를 인그레스 리프로 다시 스트리밍합니다. GLB는 최적의 경로를 선택합니다. end-to-end 점수이며, 최적의 로컬 이그레스 점수가 아닙니다.
멀티홉 핫스팟 문제
DLB는 다음을 사용해 각 ECMP 넥스트홉을 평가합니다: local egress queue 깊이: 이 스위치의 outbound 포트에서 일어나는 상황입니다. 2계층 leaf-spine에서는 이것이 최적입니다. 그러나 3계층 Clos로 확장하면, 깨끗한 uplink를 가진 spine을 선택하더라도 결국 super-spine에 도달하게 되며, 그곳에서는 downlink egress leaf로 돌아가는 경로가 혼잡합니다. 로컬 관점은 정확하지만, 종단 간 관점은 잘못되었습니다.
super-spine을 갖춘 3-stage Clos가 표준 토폴로지가 되는 1,024-GPU 이상 규모의 패브릭에서, 이것이 tail-latency 이상치의 가장 지배적인 잔존 원인입니다. OcNOS 7.1은 Global Load Balancing을 도입합니다 이를 해결하기 위해: 모든 계층이 경로 품질 텔레메트리를 인그레스 리프 방향으로 게시하므로, 인그레스 결정이 완전한 엔드투엔드 점수를 기반으로 이루어집니다.
DLB vs GLB: 경로 결정의 범위
홉 단위 적응형 라우팅
각 switch는 로컬 egress queue-depth와 링크 사용률을 기준으로 자체 ECMP next-hop의 순위를 매깁니다. 2단계 fabric과 3단계 fabric의 leaf→spine 홉에 탁월합니다. TH4 / TH5에서 현재 사용 가능합니다.
엔드투엔드 경로 스코어링
모든 계층은 혼잡 텔레메트리를 인그레스 리프로 다시 발행합니다. 인그레스는 전체 경로(leaf→spine→super-spine→spine→leaf)의 순위를 매기고, 로컬 홉만이 아닌 전체 패브릭 품질 점수를 기준으로 선택합니다.
OcNOS 7.1 GLB 구현
경로 품질 게시
모든 spine과 super-spine은 포트별 queue 점유율과 사용률 변화를 패브릭 전역의 인접 관계에 게시합니다. 업데이트는 밀리초 미만이며 기존 in-band 시그널링을 사용하므로, 추가적인 control-plane 트래픽이 없습니다.
엔드투엔드 애그리게이션
ingress leaf는 로컬 egress 품질과 다운스트림 텔레메트리를 결합하여 후보 경로별 종합 점수를 산출합니다. 가장 나쁜 hop이 점수를 좌우하며, 이는 사업자가 트러블슈팅할 때 사용하는 것과 동일한 직관입니다.
Flowlet-aligned
DLB와 마찬가지로 GLB는 flowlet 경계에서 재바인딩하여 RoCEv2와 TCP의 순서 보장 전달을 유지합니다. 차이는 판단의 근거에 있습니다. 로컬 포트 품질이 아니라 패브릭 전체 품질을 기준으로 합니다.
DLB 위에 계층화
GLB는 DLB의 판단을 확장하며, 대체하지 않습니다. GLB 지원 스위치와 DLB 전용 스위치가 혼재된 패브릭도 올바르게 동작합니다. 비 GLB 스위치는 단순히 로컬 한정 품질만 기여합니다.
최대 16k-GPU 한도까지
256-port spine 계층과 64-port super-spine 계층의 레퍼런스 디자인으로, 64×800G TH5 섀시를 기본 구성 단위로 사용해 16,384-GPU 아키텍처 한계 규모에 맞춰 설계되었습니다.
운영팀을 위한 gNMI
경로별 스코어, rebind 이벤트, worst-hop 귀인(attribution) 정보가 gNMI/OpenConfig를 통해 스트리밍됩니다, SRE는 패브릭 결정과 xCCL (NCCL / RCCL / oneCCL) 집합 통신 작업 동작을 블랙박스 없이 상관 분석할 수 있습니다.
로드맵 및 가용성
- OcNOS 7.1, 첫 릴리스. GLB는 오늘날 DLB를 구동하는 것과 동일한 TH4 / TH5 하드웨어에서 7.1 OcNOS-DC 트레인의 일부로 제공됩니다. 일정과 기능 범위는 다음에서 확인하세요: OcNOS 릴리스 페이지.
- 동일 SKU. OcNOS-DC PLUS에 포함: 기능별 유료 장벽 없음, 업그레이드 시 새 라이선스 키 불필요.
- 무중단 업그레이드. 7.0에서 7.1로의 brownfield 업그레이드가 지원되며, 혼합 버전 fabric은 업그레이드 기간 동안 DLB 전용 동작으로 정상 작동을 유지합니다.
- UEC-aligned. 경로 품질 플레인은 UEC NIC 에코시스템이 성숙해지면 Ultra Ethernet Consortium 시그널링과 상호 운용되도록 설계되고 있어, 7.1 GLB는 업계가 나아가는 방향과 전방 호환됩니다. 참고: Ultra Ethernet (UEC).
- 아키텍처 검토 제공 가능. 1k 개 이상의 GPU 패브릭을 설계 중이시라면, GLB 텔레메트리 플레인을 포함한 사이징 작업을 진행해 드립니다.