RoCEv2: AI 패브릭을 위한 무손실 이더넷
RDMA over Converged Ethernet v2는 최신 AI 패브릭 전반에서 GPU 집합 통신 트래픽을 전달하는 기술입니다. OcNOS는 검증된 400G 및 800G 오픈 하드웨어에서 전체 RoCEv2 툴킷(PFC, ECN/DCQCN, 적응형 로드 밸런싱, 우선순위별 텔레메트리)을 구현합니다.
AI Fabric Rail 토폴로지
컴팩트한 rail 슬라이스: 두 개의 스파인과 두 개의 리프가 네 개의 GPU 간 RoCEv2를 전달합니다. PFC pause 프레임은 혼잡 시 홉 단위로 전파되고, ECN은 소스에서의 DCQCN 반응을 위해 elephant flow를 마킹합니다.
RoCEv2가 AI/ML 패브릭에 중요한 이유
GPU 컬렉티브(all-reduce, all-gather, all-to-all)는 elephant flow 단일 패브릭 경로를 포화시키고 훈련 작업의 효율을 유지하기 위해 거의 무손실에 가까운 환경을 요구합니다. 400G RoCEv2 링크에서 단일 패킷 하나만 드롭되어도 해당 NIC는 전체 RDMA 송신 윈도우를 재전송하며, 이는 GPU 유휴 시간 수초로 측정될 수 있습니다. RoCEv2는 세 가지 축, 즉 PFC(Priority Flow Control), ECN(Explicit Congestion Notification), DCQCN(Data Center Quantized Congestion Notification)을 통해 이러한 워크로드를 위한 리프-스파인 패브릭을 무손실 전송 환경으로 전환합니다.
OcNOS RoCEv2 구현
우선순위별 pause
구성 가능한 우선순위 큐에서의 802.1Qbb PFC를, 데드락 상태를 감지하고 전파되기 전에 자동 복구하는 워치독 타이머와 결합합니다.
Adaptive marking
큐별 WRED 기반 ECN 마킹과 DCQCN 리액션 포인트 피드백. xCCL (NCCL / RCCL / oneCCL) 집합 통신 워크로드에 맞춰 튜닝된 기본값, 커스텀 RDMA 스택을 위한 파라메트릭 오버라이드.
Adaptive flowlet
Dynamic Load Balancing(DLB)은 링크 포화 시 1밀리초 미만 간격으로 flowlet을 재배치합니다. symmetric 토폴로지에 악영향을 주는 static hashing 충돌을 제거합니다.
우선순위별 큐 통계
큐 깊이, PFC pause 카운터, ECN 표시 패킷, 마이크로버스트 탐지를 위한 gNMI 스트리밍 센서를 1초 단위로 내보냅니다.
레일 최적화 패브릭
레일 정렬 및 스케줄드 패브릭 토폴로지에 대해 검증했습니다. 기성 400G 및 800G 오픈 스위치를 사용하는 256–4,096 GPU 클러스터용 레시피를 제공합니다.
무손실 검증
검증된 무손실 구성을 end-to-end로 확인하는 CLI 진단: PFC headroom 계산, ECN 임계치 점검, 그리고 합성 incast 테스트.
OcNOS로 얻는 도입 효과
- 개방형 하드웨어 선택권. UfiSpace, Edgecore, Wedge, Celestica 플랫폼에서 동일한 NOS 이미지로 RoCEv2를 구동하세요: 패브릭 계층에 벤더 종속이 없습니다.
- 도입 첫날부터 동일한 기능 제공. Adaptive LB, DCQCN 튜닝, ASIC 네이티브 텔레메트리는 유료 추가 옵션이 아닙니다. 기본 OcNOS-DC 라이선스에 포함됩니다.
- 레퍼런스 디자인. 널리 사용되는 AI 패브릭 토폴로지를 위한 검증된 구성: 구성 내용과 테스트 결과를 공개합니다.
- 엔지니어링 액세스. 프리미엄 지원 등급에는 패브릭 구축 단계에서 OcNOS RoCEv2 팀과의 직접 소통이 포함됩니다.