메뉴

#LLM 추론

HN
Hacker News 1일 전
IMP 8

C++와 CUDA로 구현하는 고성능 LLM 추론 엔진

인기 있는 LLM 추론 프레임워크인 vLLM의 경량화된 버전인 tiny-vLLm을 C++와 CUDA를 사용해 밑바닥부터 직접 구현해 보는 오픈소스 프로젝트 및 강의 자료입니다. 모델 가중치 로딩부터 PagedAttention, 연속 배치(Continuous Batching) 등 실제 운영 환경에서 필요한 핵심 기술들을 직관적으로 학습할 수 있습니다. 개발자와 강사 모두가 LLM의 작동 원리와 추론 서버 구축 과정을 깊이 있게 이해하는 데 매우 유용한 자료입니다.

오픈소스 LLM 추론 vLLM
HN
Hacker News 51일 전
IMP 8

연구 중심 에이전트: 코딩 전 논문을 읽을 때

코드만 분석하던 기존 AI 에이전트에 '논문 및 경쟁 프로젝트 리서치' 단계를 추가했더니, 사람이 놓칠 수 있는 핵심 최적화(OOM 문제 해결 등)를 찾아냅니다. 실제로 llama.cpp 프로젝트에 적용해 약 3시간 만에 x86 환경에서 15%, ARM에서 5%의 속도 향상을 달성하며 그 성능을 입증했습니다. 이는 단순한 코딩 도구를 넘어, 도메인 지식을 활용하는 시니어 엔지니어처럼 동작하는 에이전트의 가능성을 보여줍니다.

AI 에이전트 코드 최적화 LLM 추론