#CUDA

C++와 CUDA로 구현하는 고성능 LLM 추론 엔진

인기 있는 LLM 추론 프레임워크인 vLLM의 경량화된 버전인 tiny-vLLm을 C++와 CUDA를 사용해 밑바닥부터 직접 구현해 보는 오픈소스 프로젝트 및 강의 자료입니다. 모델 가중치 로딩부터 PagedAttention, 연속 배치(Continuous Batching) 등 실제 운영 환경에서 필요한 핵심 기술들을 직관적으로 학습할 수 있습니다. 개발자와 강사 모두가 LLM의 작동 원리와 추론 서버 구축 과정을 깊이 있게 이해하는 데 매우 유용한 자료입니다.

오픈소스 LLM 추론 vLLM

MarkTechPost • 61일 전

IMP 8

다중 GPU/노드 통신 융합 커널 라이브러리 mKernel 공개

UC Berkeley의 UCCL 연구팀이 다중 GPU 및 다중 노드 환경의 통신과 연산을 하나의 지속형 CUDA 커널로 통합한 'mKernel' 라이브러리를 공개했습니다. 이 라이브러리는 노드 내 NVLink, 노드 간 RDMA 통신 및 고밀도 연산을 하나로 융합하여 시스템 오버헤드를 최소화하고 대규모 AI 모델 학습 및 분산 컴퓨팅의 효율성을 극대화하는 데 기여할 수 있습니다.

GPU 컴퓨팅 병렬 처리 분산 시스템

MarkTechPost • 80일 전

IMP 8

엔비디아, 러스트를 CUDA PTX로 컴파일하는 백엔드 오픈소스 공개

엔비디아 NVlabs가 Rust 코드를 CUDA GPU용 PTX 코드로 직접 변환해 주는 실험적 컴파일러 백엔드인 'cuda-oxide v0.1.0'을 공개했습니다. 이 도구는 별도의 CUDA 코드 없이 Rust만으로 GPU 커널을 작성할 수 있게 해 주며, cargo 명령어 하나로 호스트와 디바이스 코드의 단일 소스 컴파일을 지원합니다. 이를 통해 Rust의 안정성과 생산성을 그대로 유지하면서도 복잡한 GPU 프로그래밍을 단순화할 수 있어 그래픽스 및 AI 개발자들에게 중요한 의미를 가집니다.

NVIDIA Rust CUDA

r/LocalLLaMA • 88일 전

IMP 9

PFlash: RTX 3090에서 128K 기준 llama.cpp 대비 프리필 10배 빠름

오픈소스로 공개된 ‘PFlash’는 소형 드래프트 모델로 토큰 중요도를 평가해 중요한 구간만 처리하는 ‘추측적 프리필(Speculative Prefill)’ 기법을 적용했습니다. 그 결과, RTX 3090(24GB) 환경에서 128K 길이의 프롬프트 처리 시 기존 llama.cpp보다 첫 토큰 생성 시간(TTFT)을 약 10.4배 단축시켰습니다. C++/CUDA로만 작성되어 Python 기반 오버헤드 없이 24GB 메모리 내에서 추론 전체가 실행되는 것이 특징입니다.

추론 속도 최적화 llama.cpp 오픈소스 LLM