퍼플렉시티, 휴깅페이스 대비 5배 빠른 토크나이저 오픈소스화
Perplexity AI가 Unigram 기반의 새로운 토크나이저를 오픈소스로 공개했습니다. 이 토크나이저는 널리 쓰이는 Hugging Face 토크나이저 대비 p50 지연 시간을 5배 낮춰 대규모 텍스트 처리 성능을 크게 향상시켰다는 점에서 실무적인 의의가 있습니다. 데이터 전처리 및 AI 서비스 추론 속도 개선에 핵심적인 역할을 할 것으로 기대됩니다.
Perplexity AI가 Unigram 기반의 새로운 토크나이저를 오픈소스로 공개했습니다. 이 토크나이저는 널리 쓰이는 Hugging Face 토크나이저 대비 p50 지연 시간을 5배 낮춰 대규모 텍스트 처리 성능을 크게 향상시켰다는 점에서 실무적인 의의가 있습니다. 데이터 전처리 및 AI 서비스 추론 속도 개선에 핵심적인 역할을 할 것으로 기대됩니다.
오픈소스 프로젝트 llama.cpp에 MTP(다중 토큰 예측) 적용 시 프롬프트 처리(PP) 속도를 크게 향상시키는 PR이 병합되었습니다. 기존에는 불필요한 로짓(logit) 복사로 인해 메모리 부하가 발생했으나, 이를 최적화하여 MTP 사용 시 발생하던 성능 저하를 절반 수준으로 줄였습니다.
본 글은 Apple Silicon 환경에서 Swift를 사용하여 외부 프레임워크 없이 대규모 언어 모델(LLM)을 학습시키기 위한 행렬 곱셈 코드를 처음부터 직접 작성하고 극한으로 최적화하는 과정을 다룹니다. 저자는 Andrej Karpathy의 'llm.c' 프로젝트를 Swift로 포팅하고, CPU, SIMD, AMX, GPU 등 Apple Silicon의 다양한 연산 유닛을 활용해 기존 C언어 구현체보다 빠르게 만드는 실험을 진행합니다. 이를 통해 Swift 환경에서 ML 연산을 최적화하는 핵심 기법과 Apple 기기의 하드웨어적 성능 한계를 체감할 수 있는 귀중한 인사이트를 제공합니다.
Qwen이 TileLang 기반의 고성능 선형 어텐션(Linear Attention) 커널인 FlashQLA를 공개했습니다. 순방향 연산 속도를 2~3배, 역방향 연산 속도를 2배 향상시켰으며, 특히 개인 기기에서 작동하는 에이전트 AI 및 긴 문맥(Long-context) 처리 환경에 최적화된 것이 특징입니다. 메모리 제약이 심한 에지 디바이스 환경에서 실질적인 성능 향상을 이끌어내는 실무적인 하드웨어 최적화 기법을 적용했습니다.
Railway가 프로덕션 프론트엔드를 Next.js에서 Vite + TanStack Router로 성공적으로 마이그레이션한 후기를 공유했습니다. 기존 Next.js의 서버 중심 패턴은 클라이언트 중심 앱에 맞지 않았고, 빌드 시간이 10분을 넘어서는 등 병목이 되었습니다. 두 번의 PR과 무중단 배포를 통해 200개 이상의 라우트 마이그레이션을 완료하며, 클라이언트 중심 개발에 적합한 스택의 중요성을 보여줍니다.
Rust 나이틀리 버전에 새롭게 추가된 'become' 키워드를 활용해 Uxn CPU 에뮬레이터를 꼬리 재귀(tail-call) 기반으로 구현한 경험기를 공유했습니다. 이 방식을 적용한 결과, 작성자의 기존 Rust 구현체는 물론 직접 작성한 ARM64 어셈블리 버전보다도 더 높은 성능을 달성하는 놀라운 결과를 얻었습니다. 이 글은 시스템 프로그래밍 및 에뮬레이터 개발에서 Rust의 꼬리 재귀 최적화가 가지는 실용성과 성능적 이점을 보여줍니다.