메뉴

#로컬-llm

HN
Hacker News 15시간 전
IMP 8

로터리 GPU: 제한된 VRAM 환경에서의 대규모 MoE 모델 로컬 실행 탐구

이 논문은 VRAM이 8GB에 불과한 소비자용 노트북에서 약 350억 파라미터 규모의 대규모 MoE 모델을 로컬 환경에서 실행할 수 있는 '로터리 GPU' 기법을 제안합니다. 실험 결과, 약 6.3GB의 VRAM만 사용하면서도 초당 21.06 토큰의 디코딩 처리량을 달성하며 뛰어난 메모리 효율성을 입증했습니다. 이는 클라우드 인프라에 의존하기 어려운 하드웨어, 보안, 예산 제약이 있는 환경에서도 거대 언어 모델(LLM)을 효과적으로 활용할 수 있는 가능성을 제시한다는 점에서 매우 중요합니다.

로컬-LLM MoE 메모리-최적화
HN
Hacker News 12일 전
IMP 8

8B 모델 에이전트 성능 53%→99% 끌어올린 가드레일 'Forge'

자체 호스팅되는 소형 LLM(8B)의 도구 호출 및 에이전트 성능을 극적으로 끌어올려주는 'Forge' 라이브러리가 소개되었습니다. 파싱 오류 복구, 재시도 넛지, 컨텍스트 관리 등의 가드레일 기술을 통해 소형 모델로도 복잡한 다단계 에이전트 워크플로우에서 99%에 육박하는 높은 성공률을 기록할 수 있습니다. OpenAI 호환 프록시 서버 모드를 지원하여 기존 클라이언트(예: Cursor, Continue 등)에 쉽게 통합해 성능을 높일 수 있는 것이 큰 장점입니다.

오픈소스 로컬-LLM 에이전트
LL
r/LocalLLaMA 34일 전
IMP 6

큐웬 35B(MoE)에서 27B로 교체, 코딩 성능 확연한 향상

큐웬(Qwen) 3.6 모델의 35B-a3b(MoE 구조)에서 27B(Dense 구조)로 전환해 코딩 및 디버깅 능력이 크게 향상된 로컬 AI 개발자의 사용기입니다. VRAM 한계로 압축률이 높은 IQ3 모델을 사용했음에도 불구하고 기존 모델보다 복잡한 버그를 더 잘 찾아냈으며, 전체적인 처리 속도도 안정적이었습니다.

로컬-llm 큐웬 코딩-보조
LL
r/LocalLLaMA 40일 전
IMP 7

Gemma 4 26B-A4B GGUF 벤치마크 분석

Unsloth이 Gemma 4 26B-A4B 및 Qwen3.6 모델의 GGUF 양자화(Quantization) 버전별 성능을 비교하는 벤치마크를 발표했습니다. KL Divergence 지표를 통해 원본 모델의 정확도를 얼마나 잘 보존하는지 분석한 결과, Unsloth의 GGUF 포맷이 22개 중 21개 크기에서 최고 성능을 기록하며 압도적인 우위를 점했습니다. 또한 기존 Q6_K 및 MLX 4-bit 양자화 방식의 정확도를 개선하고, 16GB VRAM 환경에 맞춘 새로운 UD-IQ4_NL_XL 포맷을 추가로 제공합니다.

로컬-LLM 양자화 Gemma-4
LL
r/LocalLLaMA 43일 전
IMP 6

큐웬(Qwen) 2.5 실성능 후기: 설정만 제대로 하면 꽤 쓸만함

오픈소스 로컬 LLM 유저가 새로운 큐웬(Qwen) 2.5 모델이 오프라인 환경에서도 실용적인 성능을 발휘한다고 평가했습니다. 클로드 오푸스(Claude Opus)나 코덱스(Codex) 급은 아니지만, 애플 M5 Max 환경에서 매우 빠른 속도로 작동하며 유의미한 작업이 가능한 수준이라고 언급했습니다. 단, 모델의 추론 기능을 끄지 않는 `preserve_thinking` 설정을 반드시 켜야 최적의 성능을 얻을 수 있습니다.

로컬-LLM 큐웬(Qwen) 오픈소스-모델
LL
r/LocalLLaMA 54일 전
IMP 8

Gemma 4 31B GGUF 양자화 모델 KL 발산 성능 순위

oobabooga 사용자가 Hugging Face 주요 업로더들의 Gemma 4 31B GGUF 양자화 모델 52종의 품질을 KL 발산 지표로 비교 분석했습니다. 그 결과 파레토 최적화 기준 unsloth의 UD- 시리즈가 동일 용량 대비 가장 뛰어난 성능을 보여주었으며, 코딩 및 과학 분야보다 긴 문맥이나 비라틴어 텍스트 처리 시 품질 저하가 크게 나타났습니다. 이는 로컬 환경에서 LLM을 구동하는 사용자들에게 자신의 메모리 용량에 맞는 최적의 양자화 모델을 선택하는 중요한 가이드를 제공합니다.

로컬-LLM 양자화 Gemma-4