메뉴
BL
MarkTechPost 23일 전

LightSeek, 에이전트 워크로드 최적화 오픈소스 LLM 추론 엔진 공개

IMP
8/10
핵심 요약

LightSeek 재단이 코딩 에이전트 등 복잡한 AI 작업을 효율적으로 처리하기 위한 오픈소스 LLM 추론 엔진인 'TokenSpeed'를 MIT 라이선스로 공개했습니다. 이 엔진은 단일 GPU 처리량(TPM)은 물론 개별 사용자 체감 속도(TPS)까지 동시에 극대화하도록 설계되어, 기존 챗봇과는 결이 다른 에이전트 환경의 병목 현상을 해결하는 데 초점을 맞췄습니다. 특히 C++ 기반의 제어 평면과 파이썬 기반의 실행 평면을 분리한 구조와 이기종 가속기를 지원하는 모듈형 커널 시스템을 통해 엔비디아 TensorRT-LLM 수준의 고성능을 추구합니다.

번역된 본문

[에디터 추천] 에이전트 AI | 인공지능 | AI 인프라 | 기술 | AI 쇼츠 | 애플리케이션 | 머신러닝 | 신규 출시 | 오픈소스 | 소프트웨어 엔지니어링 | 스탭 | 기술 뉴스

AI 배포 과정에서 추론 효율성은 조용히 but 가장 중요한 병목 현상 중 하나로 자리 잡았습니다. Claude Code, Codex, Cursor와 같은 에이전트 코딩 시스템이 단순한 개발자 도구를 넘어 소프트웨어 개발 전체를 이끄는 인프라로 확장됨에 따라, 이러한 요청을 처리하는 기반이 되는 추론 엔진들의 부하가 점점 더 가중되고 있습니다. 이에 LightSeek 재단 연구진은 에이전트 워크로드(Agentic Workloads)의 요구사항에 맞게 특별히 설계된 오픈소스 LLM 추론 엔진인 'TokenSpeed'를 출시했습니다. TokenSpeed 엔진은 현재 프리뷰(Preview) 상태로, MIT 라이선스 하에 제공됩니다.

왜 에이전트 추론이 다른 문제인가? TokenSpeed의 설계 방향이 가지는 의미를 이해하려면, 에이전트 추론이 왜 어려운지 먼저 파악해야 합니다. 코딩 에이전트는 일반적인 챗봇의 턴(Turn) 방식과는 다르게 작동합니다. 컨텍스트의 크기가 수시로 50K 토큰을 넘나들고, 대화가 수십 번의 턴에 걸쳐 이어지는 경우가 많습니다. 이는 두 가지 핵심 지표에 동시적인 압박을 가합니다. 단일 GPU당 TPM(분당 토큰 처리량, 한 GPU가 몇 명의 사용자를 감당할 수 있는지를 결정)과 사용자당 TPS(초당 토큰 처리량, 개별 사용자가 시스템을 반응성이 좋다고 느끼는지를 결정)이 바로 그것입니다. 대부분의 공개 벤치마크는 이러한 복잡한 동작 방식을 제대로 반영하지 못합니다. TokenSpeed는 이 두 가지 지표를 모두 최대화하도록 설계되었습니다. 즉, 사용자당 TPS 하한선(일반적으로 70 TPS, 필요시 200 TPS 이상)을 유지하면서 단일 GPU당 TPM을 극대화하는 것을 목표로 합니다.

아키텍처: 5개의 상호 연결된 하위 시스템 TokenSpeed의 아키텍처는 5가지 설계 기둥을 중심으로 구축되었습니다. 컴파일러 기반의 병렬 모델링 메커니즘, 고성능 스케줄러, 안전한 KV 리소스 재사용 제한, 이기종 가속기를 지원하는 플러그형 계층적 커널 시스템, 그리고 오버헤드가 적은 CPU 측 요청 진입점을 위한 SMG 통합이 그것입니다.

모델링 계층은 로컬 SPMD(단일 프로그램 다중 데이터, Single Program Multiple Data) 방식을 사용합니다. SPMD는 모든 프로세스가 동일한 프로그램을 실행하지만 서로 다른 데이터 하위 집합에 대해 작업을 수행하는 병렬 실행 모델로, 분산 딥러닝에서 흔히 사용되는 패턴입니다. 개발자가 프로세스 간의 통신 로직을 수동으로 구현해야 했던 기존 방식과 달리, TokenSpeed는 모듈 경계에서 I/O 배치(I/O placement) 주석(Annotation)만 지정하면 됩니다. 그러면 가벼운 정적 컴파일러가 모델 구축 중에 필요한 집합 연산(Collective Operations)을 자동으로 생성하여 수동 통신 로직 구현의 필요성을 완전히 없애줍니다.

스케줄러는 제어 평면(Control Plane)과 실행 평면(Execution Plane)을 구조적으로 분리합니다. 제어 평면은 C++로 구현된 유한 상태 기계(FSM)로, 타입 시스템과 협력하여 런타임이 아닌 컴파일 타임에 KV 캐시 상태 전송 및 사용량 등의 안전한 리소스 관리를 강제합니다. 요청 수명 주기, KV 캐시 리소스, 오버랩 타이밍은 명시적인 FSM 전환과 소유권(Ownership) 의미 체계를 통해 표현되므로, 규칙에 의존하는 대신 검증 가능한 제어 시스템에 의해 정확성이 보장됩니다. 이러한 정확성 제약 조건을 런타임 규칙에 맡기는 대신 타입 시스템에 인코딩함으로써, LLM 서빙에서 오류가 가장 많이 발생하는 영역 중 하나인 KV 캐시 관리 오류를 조기에 발견할 수 있습니다. 반면 실행 평면은 파이썬으로 구현되어 개발 효율성을 유지하며, 개발자의 빠른 기능 반복과 인지 부하를 줄여줍니다.

커널 계층은 GPU 커널을 엔진 코어에 밀어 넣는 대신 일급 모듈식 하위 시스템으로 취급합니다. 휴대용 공용 API, 중앙 집중식 레지스트리 및 선택 모델, 그리고 이기종 가속기를 지원하는 확장 가능한 플러그인 메커니즘을 제공합니다. 즉, 엔비디아(NVIDIA) 하드웨어에만 종속되지 않는다는 의미입니다. 개발팀은 엔비디아 블랙웰(Blackwell) 아키텍처 기반의 에이전트 워크로드를 위한 가장 빠른 MLA(다중 헤드 잠재 어텐션, Multi-head Latent Attention) 커널 중 하나를 개발하기도 했습니다. 디코드(Decode) 커널에서는 Tensor Core를 최대한 활용하기 위해 q_seqlen과 num_heads가 그룹화됩니다.

원문 보기
원문 보기 (영어)
Editors Pick Agentic AI Artificial Intelligence AI Infrastructure Technology AI Shorts Applications Machine Learning New Releases Open Source Software Engineering Staff Tech News Inference efficiency has quietly become one of the most consequential bottlenecks in AI deployment. As agentic coding systems such as Claude Code, Codex, and Cursor scale from developer tools to infrastructure powering software development at large, the underlying inference engines serving those requests are under increasing strain. The LightSeek Foundation researchers have released TokenSpeed , an open-source LLM inference engine released under the MIT license and designed specifically for the demands of agentic workloads. The TokenSpeed engine is currently in preview status. Why Agentic Inference is a Different Problem To understand what makes TokenSpeed's design choices meaningful, it helps to understand what makes agentic inference hard. Coding agents don't behave like a typical chatbot turn. Contexts routinely exceed 50K tokens, and conversations often span dozens of turns. This creates simultaneous pressure on two metrics: per-GPU TPM (tokens per minute), which determines how many users a single GPU can serve, and per-user TPS (tokens per second), which determines whether an individual user perceives the system as responsive. Most public benchmarks do not fully capture this behavior. TokenSpeed has been designed to maximize both. The objective is to maximize per-GPU TPM while maintaining a per-user TPS floor — typically 70 TPS, and sometimes 200 TPS or higher. Architecture: Five Interlocking Subsystems TokenSpeed's architecture is built around five design pillars: a compiler-backed modeling mechanism for parallelism, a high-performance scheduler, a safe KV resource reuse restriction, a pluggable layered kernel system that supports heterogeneous accelerators, and SMG integration for a low-overhead CPU-side request entrypoint. The modeling layer uses a local SPMD (Single Program, Multiple Data) approach. SPMD is a parallel execution model where all processes run the same program but on different subsets of data — a common pattern in distributed deep learning. Rather than requiring developers to manually implement the communication logic between processes, TokenSpeed enables developers to specify I/O placement annotations at module boundaries, and a lightweight static compiler then automatically generates the required collective operations during model construction, eliminating the need to manually implement communication logic. The scheduler makes a structural split between the control plane and the execution plane. The control plane is implemented in C++ as a finite-state machine that works with the type system to enforce safe resource management — including KV cache state transfer and usage — at compile time rather than at runtime. Request lifecycle, KV cache resources, and overlap timing are represented through explicit FSM transitions and ownership semantics, so correctness is enforced by a verifiable control system rather than convention. By encoding these correctness constraints into the type system rather than leaving them to runtime convention, errors in KV cache management — one of the most error-prone areas in LLM serving — are caught earlier. The execution plane is implemented in Python to maintain development efficiency, enabling faster feature iteration and lower cognitive load for developers The kernel layer treats GPU kernels as a first-class modular subsystem rather than baking them into the engine core. It provides a portable public API, a centralized registry and selection model, and an extensible plugin mechanism to support heterogeneous accelerators — meaning it isn't locked to NVIDIA hardware. The dev team has also developed one of the fastest MLA (Multi-head Latent Attention) kernels for agentic workloads on NVIDIA Blackwell. In the decode kernel, q_seqlen and num_heads are grouped to fully utilize Tensor Cores, as num_heads are small in some of these use cases. The binary prefill kernel includes a fine-tuned softmax implementation. Notably, TokenSpeed MLA has been adopted by vLLM. Finally, TokenSpeed integrates SMG — a PyTorch-native component — for a low-overhead CPU-side request entrypoint, reducing the handoff cost between CPU orchestration and GPU execution. Benchmark Results Against TensorRT-LLM on NVIDIA B200 It is worth noting upfront that these benchmarks cover single (non-disaggregated) deployment only. PD disaggregation support is still undergoing cleanup and may be covered in a dedicated follow-up from the TokenSpeed team. Together with the EvalScope team, TokenSpeed was evaluated against SWE-smith traces, which closely mirror production coding-agent traffic, benchmarked against TensorRT-LLM — the current state of the art on NVIDIA Blackwell. The test model was Kimi K2.5. For coding agents running above 70 TPS/User, the best configuration is Attention TP4 + MoE TP4, where TokenSpeed dominates TensorRT-LLM across the entire Pareto frontier: roughly 9% faster in the min-latency case (batch size 1), and roughly 11% higher throughput around 100 TPS/User. TP4 here refers to tensor parallelism across 4 GPUs, a technique that shards model weights across multiple devices to reduce per-device memory pressure and latency. On the MLA kernel, the gains are more pronounced at the decode stage. The decode kernel folds the query-sequence axis into the head axis to better fill the BMM1 M tile, improving Tensor Core utilization. The binary-version prefill kernel uses NVIDIA-internal knobs to fine-tune the softmax implementation, outperforming TensorRT-LLM's MLA across all five typical prefill workloads for coding agents with long prefix KV cache. Combined with other optimizations, this nearly halves latency relative to TensorRT-LLM on typical decode workloads with speculative decoding at batch sizes 4, 8, and 16 with long prefix KV cache. Key Takeaways TokenSpeed is a new MIT-licensed, open-source LLM inference engine by LightSeek Foundation, built specifically for agentic workloads. (Available in preview mode) Its scheduler uses a C++ finite-state machine to enforce KV cache safety at compile time, while keeping the execution plane in Python for usability. On NVIDIA B200 , TokenSpeed outperforms TensorRT-LLM by ~9% in min-latency and ~11% in throughput at 100 TPS/User on Kimi K2.5. The TokenSpeed MLA kernel nearly halves decode latency vs. TensorRT-LLM on speculative decoding workloads and has already been adopted by vLLM. Check out the Technical details and GitHub Repo . Also, feel free to follow us on Twitter and don’t forget to join our 150k+ ML SubReddit and Subscribe to our Newsletter . Wait! are you on telegram? now you can join us on telegram as well. Need to partner with us for promoting your GitHub Repo OR Hugging Face Page OR Product Release OR Webinar etc.? Connect with us