OcNOS 7.1에서 제공 예정

Global Load Balancing: 패브릭 전반의 적응형 라우팅

DLB는 한 홉에서 올바른 결정을 내리고, GLB는 패브릭 전체에 걸쳐 올바른 결정을 내립니다. OcNOS 7.1에 도입되는 Global Load Balancing은 적응형 라우팅을 포트별 관점에서 종단 간 경로 품질로 확장하여, 최대 16k-GPU 한계에 이르는 3단 Clos AI 패브릭에서 멀티홉 핫스팟 격차를 해소합니다.

엔드투엔드 경로 텔레메트리

GPU AllReduce를 전달하는 3-스테이지 Clos 슬라이스(리프, 스파인, 슈퍼 스파인)입니다. 모든 계층은 큐 점유율과 링크 활용률 텔레메트리를 인그레스 리프로 다시 스트리밍합니다. GLB는 최적의 경로를 선택합니다. end-to-end 점수이며, 최적의 로컬 이그레스 점수가 아닙니다.

멀티홉 핫스팟 문제

DLB는 다음을 사용해 각 ECMP 넥스트홉을 평가합니다: local egress queue 깊이: 이 스위치의 outbound 포트에서 일어나는 상황입니다. 2계층 leaf-spine에서는 이것이 최적입니다. 그러나 3계층 Clos로 확장하면, 깨끗한 uplink를 가진 spine을 선택하더라도 결국 super-spine에 도달하게 되며, 그곳에서는 downlink egress leaf로 돌아가는 경로가 혼잡합니다. 로컬 관점은 정확하지만, 종단 간 관점은 잘못되었습니다.

super-spine을 갖춘 3-stage Clos가 표준 토폴로지가 되는 1,024-GPU 이상 규모의 패브릭에서, 이것이 tail-latency 이상치의 가장 지배적인 잔존 원인입니다. OcNOS 7.1은 Global Load Balancing을 도입합니다 이를 해결하기 위해: 모든 계층이 경로 품질 텔레메트리를 인그레스 리프 방향으로 게시하므로, 인그레스 결정이 완전한 엔드투엔드 점수를 기반으로 이루어집니다.

DLB vs GLB: 경로 결정의 범위

로컬: DLB

홉 단위 적응형 라우팅

각 switch는 로컬 egress queue-depth와 링크 사용률을 기준으로 자체 ECMP next-hop의 순위를 매깁니다. 2단계 fabric과 3단계 fabric의 leaf→spine 홉에 탁월합니다. TH4 / TH5에서 현재 사용 가능합니다.

글로벌: GLB · 7.1

엔드투엔드 경로 스코어링

모든 계층은 혼잡 텔레메트리를 인그레스 리프로 다시 발행합니다. 인그레스는 전체 경로(leaf→spine→super-spine→spine→leaf)의 순위를 매기고, 로컬 홉만이 아닌 전체 패브릭 품질 점수를 기준으로 선택합니다.

OcNOS 7.1 GLB 구현

텔레메트리 플레인

경로 품질 게시

모든 spine과 super-spine은 포트별 queue 점유율과 사용률 변화를 패브릭 전역의 인접 관계에 게시합니다. 업데이트는 밀리초 미만이며 기존 in-band 시그널링을 사용하므로, 추가적인 control-plane 트래픽이 없습니다.

경로 점수화

엔드투엔드 애그리게이션

ingress leaf는 로컬 egress 품질과 다운스트림 텔레메트리를 결합하여 후보 경로별 종합 점수를 산출합니다. 가장 나쁜 hop이 점수를 좌우하며, 이는 사업자가 트러블슈팅할 때 사용하는 것과 동일한 직관입니다.

Selection

Flowlet-aligned

DLB와 마찬가지로 GLB는 flowlet 경계에서 재바인딩하여 RoCEv2와 TCP의 순서 보장 전달을 유지합니다. 차이는 판단의 근거에 있습니다. 로컬 포트 품질이 아니라 패브릭 전체 품질을 기준으로 합니다.

Backwards-Compatible

DLB 위에 계층화

GLB는 DLB의 판단을 확장하며, 대체하지 않습니다. GLB 지원 스위치와 DLB 전용 스위치가 혼재된 패브릭도 올바르게 동작합니다. 비 GLB 스위치는 단순히 로컬 한정 품질만 기여합니다.

Scale

최대 16k-GPU 한도까지

256-port spine 계층과 64-port super-spine 계층의 레퍼런스 디자인으로, 64×800G TH5 섀시를 기본 구성 단위로 사용해 16,384-GPU 아키텍처 한계 규모에 맞춰 설계되었습니다.

텔레메트리 출력

운영팀을 위한 gNMI

경로별 스코어, rebind 이벤트, worst-hop 귀인(attribution) 정보가 gNMI/OpenConfig를 통해 스트리밍됩니다, SRE는 패브릭 결정과 xCCL (NCCL / RCCL / oneCCL) 집합 통신 작업 동작을 블랙박스 없이 상관 분석할 수 있습니다.

로드맵 및 가용성

OcNOS 7.1, 첫 릴리스. GLB는 오늘날 DLB를 구동하는 것과 동일한 TH4 / TH5 하드웨어에서 7.1 OcNOS-DC 트레인의 일부로 제공됩니다. 일정과 기능 범위는 다음에서 확인하세요: OcNOS 릴리스 페이지.
동일 SKU. OcNOS-DC PLUS에 포함: 기능별 유료 장벽 없음, 업그레이드 시 새 라이선스 키 불필요.
무중단 업그레이드. 7.0에서 7.1로의 brownfield 업그레이드가 지원되며, 혼합 버전 fabric은 업그레이드 기간 동안 DLB 전용 동작으로 정상 작동을 유지합니다.
UEC-aligned. 경로 품질 플레인은 UEC NIC 에코시스템이 성숙해지면 Ultra Ethernet Consortium 시그널링과 상호 운용되도록 설계되고 있어, 7.1 GLB는 업계가 나아가는 방향과 전방 호환됩니다. 참고: Ultra Ethernet (UEC).
아키텍처 검토 제공 가능. 1k 이상의 GPU fabric을 사이징하는 경우, 당사는 GLB 텔레메트리 플레인을 포함한 사이징 작업을 수행합니다. 다음 도구로 leaf-spine 초기 레이아웃을 확인하십시오: AI Fabric 사이징 도구.

수천 개 GPU 규모의 패브릭 사이징이 필요하신가요? 함께 수치를 계산해 보겠습니다.

아키텍처 리뷰 예약하기 →

자주 묻는 질문

GLB 는 DLB 와 어떻게 다릅니까?

DLB 는 단일 스위치의 로컬 출력 큐 깊이를 사용하여 각 next-hop 을 평가하므로 2 계층 leaf-spine 에서 최적으로 동작합니다. GLB 는 모든 계층의 혼잡 텔레메트리를 집계하므로 ingress leaf 가 leaf 간 전체 경로를 순위화할 수 있으며, 3 단 Clos fabric 에서 로컬 관점으로는 놓치는 다운스트림 핫스팟을 포착합니다.

GLB는 언제 사용할 수 있습니까?

GLB 는 OcNOS 7.1 의 OcNOS-DC 트레인의 일부로 제공되며, 현재 DLB 를 실행하는 것과 동일한 Tomahawk 4 및 5 하드웨어에서 동작합니다. OcNOS-DC PLUS SKU 에 포함되어 있으며, 업그레이드 시 새로운 라이선스 키가 필요하지 않습니다.

GLB를 사용하려면 DLB를 교체해야 합니까?

아니요. GLB는 DLB의 판단을 대체하는 것이 아니라 그 위에 계층으로 작동합니다. 혼합 fabric은 정상적으로 동작합니다. GLB를 지원하지 않는 스위치는 단순히 로컬 전용 경로 품질만 제공하며, 7.0에서의 brownfield 업그레이드도 지원됩니다.

GLB 는 어느 정도 규모의 fabric 을 지원합니까?

레퍼런스 디자인은 256포트 spine 계층과 64포트 super-spine 계층을 사용하며, 16,384개 GPU라는 아키텍처 상한에 맞춰 산정되고, 64x800G Tomahawk 5 섀시 위에 구축됩니다.

AI 패브릭

Design the whole AI fabric with OcNOS

From the business case to the port-count maths, pick up wherever you are in the build.

솔루션 Open AI Fabric The complete 800G AI fabric: open switches, OcNOS-DC, and support under one contract. Reference designs AI Fabric 토폴로지 Rail-optimized, scheduled 3-stage Clos, and coherent DCI, sized in real port counts. Size & build AI Fabric Design Suite Size a GPU fabric: leaf, spine, and super-spine counts with a component and power summary.

AI 패브릭이 처음이십니까? 여기서 시작하십시오 AI 패브릭이란 무엇입니까? GPU 패브릭이란 무엇입니까? 무손실 이더넷이란 무엇입니까? RDMA란 무엇입니까?

The technology inside RoCEv2 lossless Rail-optimized network DLB adaptive routing GLB (7.1) Ultra Ethernet DCQCN PFC 데드락 InfiniBand 대 Ethernet RoCE 대 InfiniBand AI fabric architecture Coherent DCI

데이터시트 및 솔루션 브리프