LightSeek, 에이전트 워크로드 최적화 오픈소스 LLM 추론 엔진 공개
LightSeek 재단이 코딩 에이전트 등 복잡한 AI 작업을 효율적으로 처리하기 위한 오픈소스 LLM 추론 엔진인 'TokenSpeed'를 MIT 라이선스로 공개했습니다. 이 엔진은 단일 GPU 처리량(TPM)은 물론 개별 사용자 체감 속도(TPS)까지 동시에 극대화하도록 설계되어, 기존 챗봇과는 결이 다른 에이전트 환경의 병목 현상을 해결하는 데 초점을 맞췄습니다. 특히 C++ 기반의 제어 평면과 파이썬 기반의 실행 평면을 분리한 구조와 이기종 가속기를 지원하는 모듈형 커널 시스템을 통해 엔비디아 TensorRT-LLM 수준의 고성능을 추구합니다.
[에디터 추천] 에이전트 AI | 인공지능 | AI 인프라 | 기술 | AI 쇼츠 | 애플리케이션 | 머신러닝 | 신규 출시 | 오픈소스 | 소프트웨어 엔지니어링 | 스탭 | 기술 뉴스
AI 배포 과정에서 추론 효율성은 조용히 but 가장 중요한 병목 현상 중 하나로 자리 잡았습니다. Claude Code, Codex, Cursor와 같은 에이전트 코딩 시스템이 단순한 개발자 도구를 넘어 소프트웨어 개발 전체를 이끄는 인프라로 확장됨에 따라, 이러한 요청을 처리하는 기반이 되는 추론 엔진들의 부하가 점점 더 가중되고 있습니다. 이에 LightSeek 재단 연구진은 에이전트 워크로드(Agentic Workloads)의 요구사항에 맞게 특별히 설계된 오픈소스 LLM 추론 엔진인 'TokenSpeed'를 출시했습니다. TokenSpeed 엔진은 현재 프리뷰(Preview) 상태로, MIT 라이선스 하에 제공됩니다.
왜 에이전트 추론이 다른 문제인가? TokenSpeed의 설계 방향이 가지는 의미를 이해하려면, 에이전트 추론이 왜 어려운지 먼저 파악해야 합니다. 코딩 에이전트는 일반적인 챗봇의 턴(Turn) 방식과는 다르게 작동합니다. 컨텍스트의 크기가 수시로 50K 토큰을 넘나들고, 대화가 수십 번의 턴에 걸쳐 이어지는 경우가 많습니다. 이는 두 가지 핵심 지표에 동시적인 압박을 가합니다. 단일 GPU당 TPM(분당 토큰 처리량, 한 GPU가 몇 명의 사용자를 감당할 수 있는지를 결정)과 사용자당 TPS(초당 토큰 처리량, 개별 사용자가 시스템을 반응성이 좋다고 느끼는지를 결정)이 바로 그것입니다. 대부분의 공개 벤치마크는 이러한 복잡한 동작 방식을 제대로 반영하지 못합니다. TokenSpeed는 이 두 가지 지표를 모두 최대화하도록 설계되었습니다. 즉, 사용자당 TPS 하한선(일반적으로 70 TPS, 필요시 200 TPS 이상)을 유지하면서 단일 GPU당 TPM을 극대화하는 것을 목표로 합니다.
아키텍처: 5개의 상호 연결된 하위 시스템 TokenSpeed의 아키텍처는 5가지 설계 기둥을 중심으로 구축되었습니다. 컴파일러 기반의 병렬 모델링 메커니즘, 고성능 스케줄러, 안전한 KV 리소스 재사용 제한, 이기종 가속기를 지원하는 플러그형 계층적 커널 시스템, 그리고 오버헤드가 적은 CPU 측 요청 진입점을 위한 SMG 통합이 그것입니다.
모델링 계층은 로컬 SPMD(단일 프로그램 다중 데이터, Single Program Multiple Data) 방식을 사용합니다. SPMD는 모든 프로세스가 동일한 프로그램을 실행하지만 서로 다른 데이터 하위 집합에 대해 작업을 수행하는 병렬 실행 모델로, 분산 딥러닝에서 흔히 사용되는 패턴입니다. 개발자가 프로세스 간의 통신 로직을 수동으로 구현해야 했던 기존 방식과 달리, TokenSpeed는 모듈 경계에서 I/O 배치(I/O placement) 주석(Annotation)만 지정하면 됩니다. 그러면 가벼운 정적 컴파일러가 모델 구축 중에 필요한 집합 연산(Collective Operations)을 자동으로 생성하여 수동 통신 로직 구현의 필요성을 완전히 없애줍니다.
스케줄러는 제어 평면(Control Plane)과 실행 평면(Execution Plane)을 구조적으로 분리합니다. 제어 평면은 C++로 구현된 유한 상태 기계(FSM)로, 타입 시스템과 협력하여 런타임이 아닌 컴파일 타임에 KV 캐시 상태 전송 및 사용량 등의 안전한 리소스 관리를 강제합니다. 요청 수명 주기, KV 캐시 리소스, 오버랩 타이밍은 명시적인 FSM 전환과 소유권(Ownership) 의미 체계를 통해 표현되므로, 규칙에 의존하는 대신 검증 가능한 제어 시스템에 의해 정확성이 보장됩니다. 이러한 정확성 제약 조건을 런타임 규칙에 맡기는 대신 타입 시스템에 인코딩함으로써, LLM 서빙에서 오류가 가장 많이 발생하는 영역 중 하나인 KV 캐시 관리 오류를 조기에 발견할 수 있습니다. 반면 실행 평면은 파이썬으로 구현되어 개발 효율성을 유지하며, 개발자의 빠른 기능 반복과 인지 부하를 줄여줍니다.
커널 계층은 GPU 커널을 엔진 코어에 밀어 넣는 대신 일급 모듈식 하위 시스템으로 취급합니다. 휴대용 공용 API, 중앙 집중식 레지스트리 및 선택 모델, 그리고 이기종 가속기를 지원하는 확장 가능한 플러그인 메커니즘을 제공합니다. 즉, 엔비디아(NVIDIA) 하드웨어에만 종속되지 않는다는 의미입니다. 개발팀은 엔비디아 블랙웰(Blackwell) 아키텍처 기반의 에이전트 워크로드를 위한 가장 빠른 MLA(다중 헤드 잠재 어텐션, Multi-head Latent Attention) 커널 중 하나를 개발하기도 했습니다. 디코드(Decode) 커널에서는 Tensor Core를 최대한 활용하기 위해 q_seqlen과 num_heads가 그룹화됩니다.