#양자화

단일 24GB GPU로 구동하는 최고의 로컬 LLM 비교

본문은 진지한 로컬 추론 작업을 위한 실질적인 최소 요건인 24GB 단일 GPU 환경에서 실행할 수 있는 6가지 주요 오픈웨이트 모델을 비교 분석합니다. Qwen, Gemma, Mistral, DeepSeek 등 각 모델의 VRAM 요구량, 라이선스, 그리고 최적의 활용 사례를 소개하여 실무자의 모델 선택을 돕습니다.

로컬LLM 오픈소스 VRAM

MarkTechPost • 14일 전

IMP 8

노트북·스마트폰 구동 프리즘ML '분사이 27B' 공개

PrismML이 기존 Qwen3.6-27B 모델의 구조를 유지하면서도 가중치를 1.71비트 및 1비트로 경량화한 'Bonsai 27B'를 공개했습니다. 이를 통해 270억 개 매개변수(Parameters)를 가진 대규모 언어 모델을 노트북이나 스마트폰 같은 일상적인 기기에서 실행할 수 있게 되었습니다. Apache 2.0 라이선스로 공개되어 누구나 자유롭게 활용할 수 있다는 것이 특징입니다.

경량화 모델 양자화 오픈소스

Hacker News • 14일 전

IMP 9

스마트폰에서 구동되는 최초의 27B급 AI 모델 '분사이(Bonsai)'

PrismML이 1비트(1-bit) 및 3진법(ternary) 양자화 기술을 적용한 초경량 AI 모델 '분사이 27B(Bonsai 27B)'를 공개했습니다. 이 모델은 스마트폰이나 일반 노트북 환경에서도 270억 개 매개변수(27B) 수준의 고성능 추론, 코딩, 시각 및 에이전트 기능을 온디바이스로 실행할 수 있게 해주는 패러다임 전환적 의미를 지닙니다. 지능 손실은 최소화(기존 대비 90~95% 성능 유지)하면서도 메모리는 혁신적으로 절감하여, 강력한 오픈소스 AI의 모바일 활용을 본격화할 것으로 기대됩니다.

온디바이스 AI 초경량 모델 1비트 LLM

Hacker News • 49일 전

IMP 9

콜모고로프-아놀드 네트워크를 활용한 FPGA 초고속 머신러닝

최신 GPU 기반 머신러닝의 한계를 넘어 FPGA에서 나노초 단위의 초저지연 추론과 온라인 학습을 구현한 연구입니다. 콜모고로프-아놀드 네트워크(KAN) 구조와 FPGA의 룩업 테이블(LUT)을 결합하여 하드웨어 효율성을 극대화했습니다. FPGA 2026 및 ICML 2026 학회에서 최우수 논문으로 선정되는 등 하드웨어 가속 및 에지 AI 분야에서 중요한 진전을 보여줍니다.

하드웨어 가속 FPGA 콜모고로프-아놀드 네트워크

Hacker News • 53일 전

IMP 8

엣지 기기에서 구동되는 최신 프론티어 AI 모델

로봇 공학 종사자들이 설립한 General Instinct가 엣지 하드웨어에서도 최신 프론티어급 대규모 모델을 구동할 수 있는 기술을 오픈소스로 공개했습니다. 이들은 약 245GB에 달하는 Qwen3.5-122B MoE 모델을 48GB로 압축하여, 8GB VRAM만으로도 로봇 및 엣지 기기에서 구동할 수 있는 혁신적인 성과를 보여주며 로컬 AI의 한계를 크게 뛰어넘었습니다.

엣지 AI 모델 압축 오픈소스

Hacker News • 53일 전

IMP 8

구글 제마 4 QAT 모델: 모바일·노트북 최적화

구글 딥마인드가 모바일 및 노트북 등 일상적인 엣지 디바이스에서의 구동 효율을 극대화하기 위해 '양자화 인식 훈련(QAT)'이 적용된 Gemma 4 모델을 공개했습니다. 일반적인 양자화 방식(PTQ)보다 모델의 품질 저하를 최소화하며, 특히 모바일 전용 양자화 스키마를 통해 소형 모델(E2B)의 메모리 사용량을 1GB 미만으로 획기적으로 줄였습니다. 이를 통해 소비자용 GPU 및 모바일 환경에서도 로컬 기반의 고성능 AI 모델을 원활하게 실행할 수 있게 되었습니다.

로컬-모델 양자화 온디바이스-AI

r/LocalLLaMA • 64일 전

IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화

Hacker News • 76일 전

IMP 8

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

AI 모델 평가 LMSYS Arena 성능 저하

r/LocalLLaMA • 76일 전

IMP 7

Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상

LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.

로컬-AI LLaMA.cpp 양자화

r/LocalLLaMA • 93일 전

IMP 6

큐웬 35B(MoE)에서 27B로 교체, 코딩 성능 확연한 향상

큐웬(Qwen) 3.6 모델의 35B-a3b(MoE 구조)에서 27B(Dense 구조)로 전환해 코딩 및 디버깅 능력이 크게 향상된 로컬 AI 개발자의 사용기입니다. VRAM 한계로 압축률이 높은 IQ3 모델을 사용했음에도 불구하고 기존 모델보다 복잡한 버그를 더 잘 찾아냈으며, 전체적인 처리 속도도 안정적이었습니다.

로컬-llm 큐웬 코딩-보조

r/LocalLLaMA • 95일 전

IMP 7

Gemma 4·Qwen 3.6 KV캐시 양자화 성능 비교

Gemma 4와 Qwen 3.6 모델의 메모리 절약 기법인 KV 캐시 양자화(q8_0, q4_0) 결과를 비교한 벤치마크입니다. Gemma 모델은 흔히 '무손실'로 알려진 q8_0 양자화에서도 품질 저하가 크게 발생하며, 특히 MoE 모델에서 민감도가 극심합니다. 반면 Qwen 모델은 q8_0은 물론 q4_0 수준에서도 뛰어난 안정성을 보여주어, 로컬 환경 등에서 메모리 최적화를 고려할 때 모델 선택의 중요한 기준이 됩니다.

로컬 AI 성능 벤치마크 양자화

r/LocalLLaMA • 97일 전

IMP 6

언슬로스, 동적 GGUF 및 양자화 2.0 버전 공개

AI 모델 경량화 및 파인튜닝을 돕는 Unsloth가 'Dynamic GGUF + Quants'의 새로운 2.0 버전을 발표했습니다. 이번 업데이트는 업계 최고 수준(SOTA)의 양자화 성능과 향상된 정확도를 제공하는 것이 특징입니다. 총 88개의 모델 파일이 추가되었으며, 로컬 환경에서 대규모 언어 모델을 효율적으로 구동하려는 실무자들에게 매우 유용한 업데이트입니다.

언슬로스 양자화 경량화

r/LocalLLaMA • 99일 전

IMP 7

Gemma 4 26B-A4B GGUF 벤치마크 분석

Unsloth이 Gemma 4 26B-A4B 및 Qwen3.6 모델의 GGUF 양자화(Quantization) 버전별 성능을 비교하는 벤치마크를 발표했습니다. KL Divergence 지표를 통해 원본 모델의 정확도를 얼마나 잘 보존하는지 분석한 결과, Unsloth의 GGUF 포맷이 22개 중 21개 크기에서 최고 성능을 기록하며 압도적인 우위를 점했습니다. 또한 기존 Q6_K 및 MLX 4-bit 양자화 방식의 정확도를 개선하고, 16GB VRAM 환경에 맞춘 새로운 UD-IQ4_NL_XL 포맷을 추가로 제공합니다.

로컬-LLM 양자화 Gemma-4

r/LocalLLaMA • 102일 전

IMP 8

Qwen3.6 GGUF 벤치마크 및 양자화 오류 정정

AI 최적화 기업 Unsloth가 최근 공개한 Qwen3.6-35B-A3B GGUF 모델의 성능 벤치마크 결과를 발표했습니다. 이와 함께 최적의 성능과 용량 효율을 보여준 자사 양자화(Quantization) 모델의 우수성을 강조했습니다. 또한 커뮤니티 내에서 제기된 빈번한 모델 업데이트에 대한 오해를 해명하고, MiniMax 2.7 모델에서 발생한 연산 오류(NaN) 및 기타 이슈의 원인이 자체적인 실수가 아닌 외부 요인 때문이었음을 구체적인 데이터로 증명했습니다.

오픈소스 로컬 LLM 양자화

r/LocalLLaMA • 103일 전

IMP 4

Bonsai 모델은 그저 과대광고에 불과하다

새로 출시된 Bonsai-8B 모델은 1비트 및 1.58비트(삼진법) 양자화 버전 모두 구글의 Gemma-4-E2B 모델보다 지능 및 정답률이 현저히 낮은 것으로 나타났습니다. 특히 1.58비트 모델은 파일 크기마저 Gemma보다 33% 더 큰 치명적인 단점을 보여주며, 실무적인 활용 가치가 거의 없음을 시사합니다.

모델 벤치마크 양자화 오픈소스

r/LocalLLaMA • 108일 전

IMP 8

미니맥스(m2.7) 맥 전용 모델, 63GB는 88% 89GB는 95%

Mac 전용 MiniMax m2.7 양자화 모델 두 종이 공개되었습니다. 63GB 버전은 MMLU 88%, 89GB 버전은 95%를 기록하며 성능을 입증했습니다. 속도 역시 M5 Max 기준 초당 약 50토큰, 프롬프트 처리 400으로 최상위 클로드 모델(Sonnet 4.5)에 근접하는 로컬 구동 성능을 보여줍니다.

MiniMax 양자화 로컬 추론

r/LocalLLaMA • 113일 전

IMP 8

Gemma 4 31B GGUF 양자화 모델 KL 발산 성능 순위

oobabooga 사용자가 Hugging Face 주요 업로더들의 Gemma 4 31B GGUF 양자화 모델 52종의 품질을 KL 발산 지표로 비교 분석했습니다. 그 결과 파레토 최적화 기준 unsloth의 UD- 시리즈가 동일 용량 대비 가장 뛰어난 성능을 보여주었으며, 코딩 및 과학 분야보다 긴 문맥이나 비라틴어 텍스트 처리 시 품질 저하가 크게 나타났습니다. 이는 로컬 환경에서 LLM을 구동하는 사용자들에게 자신의 메모리 용량에 맞는 최적의 양자화 모델을 선택하는 중요한 가이드를 제공합니다.

로컬-LLM 양자화 Gemma-4