자이(Zai), GLM-5.1 추론 네트워크 교체로 33% 비용 절감 및 15% 성능 향상 달성
자이(Zai)는 천 개 GPU 규모의 GLM-5.1 코딩 추론 클러스터에서 기존 ROFT 방식을 청화대와 공동 개발한 'ZCube'로 전면 교체했습니다. 동일한 GPU와 소프트웨어 스택을 유지하면서도 네트워크 아키텍처만의 변경으로 스위치 비용은 33% 줄이고, 처리량은 15% 높이며 첫 토큰 지연 시간(P99)은 40.6% 단축시키는 결과를 얻었습니다. 이는 하드웨어 비용을 추가하는 대신 트래픽 병목을 해소하는 네트워크 평면화(Flat) 방식을 통해 역설적인 성과를 입증했다는 점에서 AI 인프라 실무자들에게 매우 중요한 시사점을 줍니다.