일반 GPU에서 3k tokens/s 달성한 실시간 LLM 추론 기술
전체 소프트웨어 스택(아키텍처, 엔진, 커널)을 공동 설계(Co-design)하여 일반 데이터센터 GPU에서도 전용 추론 하드웨어 수준의 초고속 LLM 디코딩 속도(초당 3,000토큰)를 달성할 수 있음을 증명한 기술 프리뷰입니다. AI 에이전트의 작업 방식이 순차적이고 반복적이기 때문에 기존의 '총 처리량'보다 '단일 요청 디코딩 속도'가 핵심 성능 지표로 부상했으며, 이를 통해 에이전트의 작업 완료 시간을 기존 8분에서 20초 미만으로 획기적으로 단축할 수 있습니다.
TL;DR: 우리는 전체 소프트웨어 스택을 아키텍처, 엔진, 커널의 공동 설계(Co-design)로 최적화할 경우, GPU에서의 AI 추론이 전용 추론 하드웨어 카드의 속도 영역에 도달할 수 있음을 보여줍니다. 저희 라이브 코딩 플레이그라운드(playground.kog.ai)에서 이 속도를 직접 테스트해 보세요.
이 글은 단일 요청 LLM 디코딩 속도를 최적화하는 것이 AI 에이전트에 왜 중요한지; 이것이 FLOPS(초당 부동소수점 연산) 문제가 아니라 주로 메모리 대역폭(Maximizing memory-bandwidth) 최대화 문제인 이유; 소프트웨어 병목 현태 때문에 현재의 추론 스택이 노출하는 것보다 표준 데이터센터 GPU 하드웨어의 디코딩 속도 한계가 훨씬 더 높은 이유; 그리고 (대규모 MoE 모델에서도) 모델 아키텍처, 런타임, 저수준 GPU 코드를 단일 지연 시간 최적화 파이프라인으로 공동 설계하여 그 한계에 어떻게 도달할 수 있는지 설명합니다.
저희의 공개 기술 프리뷰는 기업, AI 연구소, 국가 주도 AI 구매자들이 이미 보유하고 있는 표준 데이터센터 GPU에서 극도로 빠른 단일 요청 디코딩이 가능함을 증명하기 위한 것입니다. 제한 요인은 이러한 유형의 워크로드에 대해 기존 추론 소프트웨어 스택이 최적화되지 않았다는 점이었습니다. 이 GPU 경로를 열어주면 독점적인 실리콘(전용 칩)에 종속되지 않고도 그 속도를 달성할 수 있습니다.
오늘 저희 2B 코딩 모델의 속도를 테스트해 볼 수 있습니다. 이 모델은 소규모이며 최첨단 프론티어 모델은 아닙니다(저희는 규모보다 속도에 집중해 왔습니다만), 특정 소프트웨어 엔지니어링 작업에 미세 조정(Fine-tuning)되었을 때 여전히 상당히 유능합니다.
자율 에이전트가 바꾸는 것: 단일 요청 디코딩 속도가 이제 중요한 지표가 되었습니다
추론 벤치마크는 일반적으로 세 가지 지표를 혼합합니다. 총 처리량(Aggregate throughput, 모든 사용자의 초당 총 생성 토큰 수)은 서버 활용도를 측정하고 대규모 배치에 보상을 줍니다. 첫 번째 토큰까지의 시간(Time to first token)은 프리필(Prefill) 지연 시간을 측정합니다. 요청당 디코딩 속도(Decode speed per request)는 토큰 생성 속도를 측정하며, 한 사용자가 전체 응답을 받기까지 얼마나 기다려야 하는지를 결정합니다.
마지막 지표가 모든 긴 직렬 상호작용을 지배하며, 이것이 바로 AI 에이전트가 병목 현상을 겪는 부분입니다. 에이전트 기반 소프트웨어 엔지니어링은 검사, 계획, 편집, 테스트, 수정의 순차적인 루프입니다. 각 단계는 이전 단계에 의존합니다. 테스트를 실행하고 웹 페이지를 로드해야 하므로 도구 사용 시간이 때때로 지배적일 수 있지만, 생성 집중적인 단계(계획, 코드 작성, 추적 분석, 디버깅, 리팩토링)가 루프의 속도를 결정합니다. 그리고 여기에 추론 토큰(Reasoning tokens)이 더해집니다.
이러한 숫자는 제품 및 사용자 경험과 직접적으로 연결됩니다. 에이전트가 워크플로우에서 50,000개의 토큰을 생성해야 한다면, 100 tokens/s는 약 8분이 걸리지만, 3,000 tokens/s는 20초 미만입니다. 이러한 차이는 구축할 수 있는 제품 자체를 바꿉니다. 에이전트가 더 자율적이 됨에 따라, 생산성의 최전선은 지능(Intelligence)만에서 지능 × 반복 속도(iteration speed)로 이동합니다. 최고의 에이전트는 동일한 실제 시간 예산 내에서 더 유용한 토큰을 생성하고, 더 많이 추론하며, 더 많은 도구 호출, 테스트 및 수정을 수행할 것입니다.
이것이 바로 Kog가 단일 요청 지연 시간을 먼저 최적화하는 이유이며, 이 프리뷰가 배치 크기(Batch size) 1로 실행되는 이유입니다. 대규모 배치도 중요하며 프로덕션에서 이를 지원할 예정이지만, 이는 다른 질문에 대한 대답입니다.
그렇다면 GPU의 디코딩 속도를 제한하는 것은 무엇일까요? 빠른 토큰 생성을 위한 주요 병목 현상은 메모리 대역폭입니다 (그리고 GPU 노드에는 이것이 충분히 많습니다)
배치 크기가 1일 때, 자기회귀 디코딩(Autoregressive decoding)은 주로 행렬-벡터 연산에 의해 지배됩니다. 생성되는 각 토큰에 대해 모델의 모든 활성 가중치가 HBM(High Bandwidth Memory)에서 연산 프로세서로 GPU 내부의 메모리 계층 구조를 통과해야 합니다. 따라서 1차 한계는 다음과 같습니다:
tokens/s ≤ (유효 메모리 대역폭) / (β × 활성 가중치 바이트 + KV 캐시)
여기서 타일이 다시 로드되거나 캐시 재사용이 불완전한 경우 β는 1보다 클 수 있습니다.
핵심적인 사실은 낮은 배치의 디코딩은 산술 강도(Arithmetic intensity, 연산 집중도)가 매우 낮다는 것입니다. FP16에서 모델 가중치는 2바이트를 차지하며 대략 하나의 곱셈-누산(Multiply-add, 2 FLOPs)에 기여하며, 이는 바이트당 약 1 FLOP입니다. FP8은 이를 ~2 FLOP/바이트로 높이고, FP4는 ~4 FLOP/바이트로 높입니다. 그러나 현대 AI GPU는 HBM 대역폭의 바이트당 수백 개의 피크 FLOPs를 제공합니다. 예를 들어, NVIDIA의 H200은 바이트당 약 400 FLOPs의 피크 밸런스를 제공한다고 주장합니다. 따라서...