#gemma-4

Gemma 4 26B-A4B GGUF 벤치마크 분석

Unsloth이 Gemma 4 26B-A4B 및 Qwen3.6 모델의 GGUF 양자화(Quantization) 버전별 성능을 비교하는 벤치마크를 발표했습니다. KL Divergence 지표를 통해 원본 모델의 정확도를 얼마나 잘 보존하는지 분석한 결과, Unsloth의 GGUF 포맷이 22개 중 21개 크기에서 최고 성능을 기록하며 압도적인 우위를 점했습니다. 또한 기존 Q6_K 및 MLX 4-bit 양자화 방식의 정확도를 개선하고, 16GB VRAM 환경에 맞춘 새로운 UD-IQ4_NL_XL 포맷을 추가로 제공합니다.

로컬-LLM 양자화 Gemma-4

r/LocalLLaMA • 113일 전

IMP 8

8GB VRAM으로 Gemma 4 로컬 파인튜닝 및 버그 수정 안내

Unsloth에서 무료 노트북을 통해 Gemma 4 E2B 및 E4B 모델을 파인튜닝할 수 있게 되었습니다. 단 8GB VRAM만으로도 로컬 환경에서 학습이 가능하며, 기존 대비 약 1.5배 빠르고 60% 적은 VRAM을 사용합니다. 또한 학습 시 Loss 폭주, 추론 오류 등 4가지 핵심 버그를 수정하여 안정적인 학습 및 추론 환경을 제공합니다.

Gemma-4 파인튜닝 오픈소스

r/LocalLLaMA • 113일 전

IMP 8

Gemma 4 31B GGUF 양자화 모델 KL 발산 성능 순위

oobabooga 사용자가 Hugging Face 주요 업로더들의 Gemma 4 31B GGUF 양자화 모델 52종의 품질을 KL 발산 지표로 비교 분석했습니다. 그 결과 파레토 최적화 기준 unsloth의 UD- 시리즈가 동일 용량 대비 가장 뛰어난 성능을 보여주었으며, 코딩 및 과학 분야보다 긴 문맥이나 비라틴어 텍스트 처리 시 품질 저하가 크게 나타났습니다. 이는 로컬 환경에서 LLM을 구동하는 사용자들에게 자신의 메모리 용량에 맞는 최적의 양자화 모델을 선택하는 중요한 가이드를 제공합니다.

로컬-LLM 양자화 Gemma-4

Hacker News • 114일 전

IMP 8

애플 M3 프로에서 구동되는 온디바이스 실시간 멀티모달 AI

해커뉴스에 공개된 'Parlor' 프로젝트는 서버 비용 없이 로컬 기기에서 완전히 무료로 실시간 음성 및 시각 대화가 가능한 온디바이스 AI 데모입니다. 구글의 소형 모델인 Gemma 4 E2B와 Kokoro TTS를 활용하여 애플 M3 Pro 환경에서 약 2.5~3초의 종단 간 지연 시간을 달성했습니다. 이는 외부 API나 고가의 서버 없이도 로컬 환경에서 원활한 언어 학습 및 다양한 멀티모달 인터랙션이 가능해졌다는 점에서 오픈소스 AI 생태계의 중요한 진전으로 평가됩니다.

온디바이스-ai 멀티모달 gemma-4

Hacker News • 114일 전

IMP 8

LM Studio CLI와 클로드 코드로 구글 제마 4 로컬 구동하기

LM Studio 0.4.0의 새로운 헤드리스 CLI와 클로드 코드(Claude Code)를 연동하여 macOS 환경에서 구글 제마 4 26B 모델을 로컬로 구동하는 방법을 소개합니다. 48GB 메모리가 탑재된 맥북 프로에서 초당 51토큰의 속도를 내며, API 비용 없이도 400B 이상의 거대 모델과 필적하는 성능을 제공하는 것이 가장 큰 특징입니다.

로컬-추론 LM-Studio Gemma-4