메뉴

#네트워크 아키텍처

LL
r/LocalLLaMA 3일 전
IMP 8

자이(Zai), GLM-5.1 추론 네트워크 교체로 33% 비용 절감 및 15% 성능 향상 달성

자이(Zai)는 천 개 GPU 규모의 GLM-5.1 코딩 추론 클러스터에서 기존 ROFT 방식을 청화대와 공동 개발한 'ZCube'로 전면 교체했습니다. 동일한 GPU와 소프트웨어 스택을 유지하면서도 네트워크 아키텍처만의 변경으로 스위치 비용은 33% 줄이고, 처리량은 15% 높이며 첫 토큰 지연 시간(P99)은 40.6% 단축시키는 결과를 얻었습니다. 이는 하드웨어 비용을 추가하는 대신 트래픽 병목을 해소하는 네트워크 평면화(Flat) 방식을 통해 역설적인 성과를 입증했다는 점에서 AI 인프라 실무자들에게 매우 중요한 시사점을 줍니다.

인프라 최적화 네트워크 아키텍처 GPU 추론
HN
Hacker News 23일 전
IMP 6

OpenAI의 WebRTC 문제점

WebRTC 전문가가 OpenAI가 음성 AI에 WebRTC를 사용하는 것을 강하게 비판하는 글입니다. WebRTC는 낮은 지연 시간을 위해 오디오 패킷을 과도하게 드롭하고 버퍼링이 불가능하여, 비용이 많이 드는 LLM 프롬프트가 손상될 수 있습니다. 특히 TTS가 실시간보다 빠르게 생성됨에도 불구하고 불필요한 대기 시간을 추가하고 네트워크 변동에 취약해지는 구조적 모순을 지적합니다.

WebRTC 음성 AI Realtime API