메뉴

#C++

HN
Hacker News 1일 전
IMP 8

C++와 CUDA로 구현하는 고성능 LLM 추론 엔진

인기 있는 LLM 추론 프레임워크인 vLLM의 경량화된 버전인 tiny-vLLm을 C++와 CUDA를 사용해 밑바닥부터 직접 구현해 보는 오픈소스 프로젝트 및 강의 자료입니다. 모델 가중치 로딩부터 PagedAttention, 연속 배치(Continuous Batching) 등 실제 운영 환경에서 필요한 핵심 기술들을 직관적으로 학습할 수 있습니다. 개발자와 강사 모두가 LLM의 작동 원리와 추론 서버 구축 과정을 깊이 있게 이해하는 데 매우 유용한 자료입니다.

오픈소스 LLM 추론 vLLM
HN
Hacker News 53일 전
IMP 7

테일슬레이어: RAM 읽기 꼬리 지연 시간 감소 라이브러리

테일슬레이어(Tailslayer)는 DRAM 리프레시(refresh) 지연으로 인해 발생하는 RAM 읽기의 꼬리 지연 시간(tail latency)을 줄여주는 C++ 라이브러리입니다. 이 라이브러리는 여러 독립적인 DRAM 채널에 데이터를 복제하고, 가장 먼저 응답하는 결과를 활용하는 헤지드 리드(hedged read) 방식을 사용합니다. 이를 통해 실무자들은 시스템의 메모리 읽기 지연과 관련된 성능 병목을 해결할 수 있어 매우 중요합니다.

오픈소스 C++ 메모리 최적화