메뉴

#양자화

LL
r/LocalLLaMA 5일 전
IMP 5

Qwen3.5 35B 비검열 모델 다양한 포맷 출시

알리바바의 오픈소스 모델 Qwen3.5 35B A3B를 기반으로 한 비검열(UnCensored) 커스텀 모델과 Native MTP(다음 토큰 예측)가 완벽히 보존된 버전이 공개되었습니다. 이 모델은 Safetensors, GGUF, NVFP4, GPTQ-Int4 등 다양한 형식과 양자화 포맷을 지원하여 로컬 환경에서의 활용성을 극대화한 것이 특징입니다.

오픈소스 모델 로컬 AI 양자화
HN
Hacker News 17일 전
IMP 8

AI 모델 숨겨진 성능 저하 추적 (ELO 기록)

해커뉴스에 공유된 이 프로젝트는 AI 기업들이 모델 출시 후 은밀하게 가하는 성능 저하(너프)나 양자화로 인한 품질 변화를 시각적으로 추적합니다. LMSYS Arena의 ELO 데이터를 기반으로 각 사의 대표 모델 성능 변화 추이를 한눈에 파악할 수 있게 구성했습니다. 개발자와 실무자들에게 API 기준의 객관적인 모델 성능 평가 데이터를 제공해 실사용 시 참고할 수 있는 중요한 지표가 됩니다.

AI 모델 평가 LMSYS Arena 성능 저하
LL
r/LocalLLaMA 17일 전
IMP 7

Qwen 모델에 다중 토큰 예측 적용 및 속도 40% 향상

LLaMA.cpp 환경에서 Qwen 모델을 대상으로 다중 토큰 예측(MTP) 기술과 양자화 기법인 TurboQuant를 성공적으로 통합했습니다. 이를 통해 로컬 환경(MacBook Pro)에서 텍스트 생성 속도를 약 40% 향상시키고 높은 수용율(90%)을 달성하며 추론 성능을 크게 개선했습니다. 이 성과는 고성능 오픈소스 모델을 일반 로컬 하드웨어에서도 빠르고 효율적으로 구동할 수 있음을 입증합니다.

로컬-AI LLaMA.cpp 양자화
LL
r/LocalLLaMA 34일 전
IMP 6

큐웬 35B(MoE)에서 27B로 교체, 코딩 성능 확연한 향상

큐웬(Qwen) 3.6 모델의 35B-a3b(MoE 구조)에서 27B(Dense 구조)로 전환해 코딩 및 디버깅 능력이 크게 향상된 로컬 AI 개발자의 사용기입니다. VRAM 한계로 압축률이 높은 IQ3 모델을 사용했음에도 불구하고 기존 모델보다 복잡한 버그를 더 잘 찾아냈으며, 전체적인 처리 속도도 안정적이었습니다.

로컬-llm 큐웬 코딩-보조
LL
r/LocalLLaMA 36일 전
IMP 7

Gemma 4·Qwen 3.6 KV캐시 양자화 성능 비교

Gemma 4와 Qwen 3.6 모델의 메모리 절약 기법인 KV 캐시 양자화(q8_0, q4_0) 결과를 비교한 벤치마크입니다. Gemma 모델은 흔히 '무손실'로 알려진 q8_0 양자화에서도 품질 저하가 크게 발생하며, 특히 MoE 모델에서 민감도가 극심합니다. 반면 Qwen 모델은 q8_0은 물론 q4_0 수준에서도 뛰어난 안정성을 보여주어, 로컬 환경 등에서 메모리 최적화를 고려할 때 모델 선택의 중요한 기준이 됩니다.

로컬 AI 성능 벤치마크 양자화
LL
r/LocalLLaMA 38일 전
IMP 6

언슬로스, 동적 GGUF 및 양자화 2.0 버전 공개

AI 모델 경량화 및 파인튜닝을 돕는 Unsloth가 'Dynamic GGUF + Quants'의 새로운 2.0 버전을 발표했습니다. 이번 업데이트는 업계 최고 수준(SOTA)의 양자화 성능과 향상된 정확도를 제공하는 것이 특징입니다. 총 88개의 모델 파일이 추가되었으며, 로컬 환경에서 대규모 언어 모델을 효율적으로 구동하려는 실무자들에게 매우 유용한 업데이트입니다.

언슬로스 양자화 경량화
LL
r/LocalLLaMA 40일 전
IMP 7

Gemma 4 26B-A4B GGUF 벤치마크 분석

Unsloth이 Gemma 4 26B-A4B 및 Qwen3.6 모델의 GGUF 양자화(Quantization) 버전별 성능을 비교하는 벤치마크를 발표했습니다. KL Divergence 지표를 통해 원본 모델의 정확도를 얼마나 잘 보존하는지 분석한 결과, Unsloth의 GGUF 포맷이 22개 중 21개 크기에서 최고 성능을 기록하며 압도적인 우위를 점했습니다. 또한 기존 Q6_K 및 MLX 4-bit 양자화 방식의 정확도를 개선하고, 16GB VRAM 환경에 맞춘 새로운 UD-IQ4_NL_XL 포맷을 추가로 제공합니다.

로컬-LLM 양자화 Gemma-4
LL
r/LocalLLaMA 43일 전
IMP 8

Qwen3.6 GGUF 벤치마크 및 양자화 오류 정정

AI 최적화 기업 Unsloth가 최근 공개한 Qwen3.6-35B-A3B GGUF 모델의 성능 벤치마크 결과를 발표했습니다. 이와 함께 최적의 성능과 용량 효율을 보여준 자사 양자화(Quantization) 모델의 우수성을 강조했습니다. 또한 커뮤니티 내에서 제기된 빈번한 모델 업데이트에 대한 오해를 해명하고, MiniMax 2.7 모델에서 발생한 연산 오류(NaN) 및 기타 이슈의 원인이 자체적인 실수가 아닌 외부 요인 때문이었음을 구체적인 데이터로 증명했습니다.

오픈소스 로컬 LLM 양자화
LL
r/LocalLLaMA 44일 전
IMP 4

Bonsai 모델은 그저 과대광고에 불과하다

새로 출시된 Bonsai-8B 모델은 1비트 및 1.58비트(삼진법) 양자화 버전 모두 구글의 Gemma-4-E2B 모델보다 지능 및 정답률이 현저히 낮은 것으로 나타났습니다. 특히 1.58비트 모델은 파일 크기마저 Gemma보다 33% 더 큰 치명적인 단점을 보여주며, 실무적인 활용 가치가 거의 없음을 시사합니다.

모델 벤치마크 양자화 오픈소스
LL
r/LocalLLaMA 49일 전
IMP 8

미니맥스(m2.7) 맥 전용 모델, 63GB는 88% 89GB는 95%

Mac 전용 MiniMax m2.7 양자화 모델 두 종이 공개되었습니다. 63GB 버전은 MMLU 88%, 89GB 버전은 95%를 기록하며 성능을 입증했습니다. 속도 역시 M5 Max 기준 초당 약 50토큰, 프롬프트 처리 400으로 최상위 클로드 모델(Sonnet 4.5)에 근접하는 로컬 구동 성능을 보여줍니다.

MiniMax 양자화 로컬 추론
LL
r/LocalLLaMA 53일 전
IMP 8

Gemma 4 31B GGUF 양자화 모델 KL 발산 성능 순위

oobabooga 사용자가 Hugging Face 주요 업로더들의 Gemma 4 31B GGUF 양자화 모델 52종의 품질을 KL 발산 지표로 비교 분석했습니다. 그 결과 파레토 최적화 기준 unsloth의 UD- 시리즈가 동일 용량 대비 가장 뛰어난 성능을 보여주었으며, 코딩 및 과학 분야보다 긴 문맥이나 비라틴어 텍스트 처리 시 품질 저하가 크게 나타났습니다. 이는 로컬 환경에서 LLM을 구동하는 사용자들에게 자신의 메모리 용량에 맞는 최적의 양자화 모델을 선택하는 중요한 가이드를 제공합니다.

로컬-LLM 양자화 Gemma-4