#인프라 최적화

자이(Zai), GLM-5.1 추론 네트워크 교체로 33% 비용 절감 및 15% 성능 향상 달성

자이(Zai)는 천 개 GPU 규모의 GLM-5.1 코딩 추론 클러스터에서 기존 ROFT 방식을 청화대와 공동 개발한 'ZCube'로 전면 교체했습니다. 동일한 GPU와 소프트웨어 스택을 유지하면서도 네트워크 아키텍처만의 변경으로 스위치 비용은 33% 줄이고, 처리량은 15% 높이며 첫 토큰 지연 시간(P99)은 40.6% 단축시키는 결과를 얻었습니다. 이는 하드웨어 비용을 추가하는 대신 트래픽 병목을 해소하는 네트워크 평면화(Flat) 방식을 통해 역설적인 성과를 입증했다는 점에서 AI 인프라 실무자들에게 매우 중요한 시사점을 줍니다.

인프라 최적화 네트워크 아키텍처 GPU 추론

r/singularity • 76일 전

IMP 8

수천억 AI 투자 속 기업 평균 GPU 활용률은 고작 5%

챗GPT 출시 이후 기업들은 폭발적인 AI 수요에 대응하기 위해 대규모 GPU 클러스터를 섣불리 도입했습니다. 하지만 현재 기업들의 평균 GPU 활용률은 5%에 불과하며, 하드웨어 비용 문제로 인해 추론(Inference) 및 소유 비용(TCO) 역시 34%에서 41%로 급증했습니다. 단순한 장비 확보를 넘어, 스케줄링, 추론 효율성, 라우팅, 거버넌스 등 전반적인 인프라 운영 관리가 시급한 과제로 떠올랐습니다.

AI 인프라 GPU 활용률 클라우드 비용

Hacker News • 117일 전

IMP 8

AI 어시스턴트, RAG 대신 가상 파일시스템 도입

문서 검색에 쓰이는 전통적인 RAG 방식의 한계(정확한 문법 누락, 다중 페이지 탐색 불가 등)를 극복하고자 가상 파일시스템인 ChromaFs를 도입한 사례입니다. 이를 통해 샌드박스 컨테이너 생성에 걸리던 46초의 지연 시간을 100밀리초로 단축하고 연간 7만 달러 이상의 인프라 비용을 절감했습니다. 기존 DB 인프라를 재사용해 추가 비용 없이 에이전트가 셸 명령어(ls, grep 등)로 문서를 탐색할 수 있게 한 것이 핵심입니다.

에이전트 아키텍처 가상 파일시스템 RAG 대체