#온디바이스-ai

구글 제마 4 QAT 모델: 모바일·노트북 최적화

구글 딥마인드가 모바일 및 노트북 등 일상적인 엣지 디바이스에서의 구동 효율을 극대화하기 위해 '양자화 인식 훈련(QAT)'이 적용된 Gemma 4 모델을 공개했습니다. 일반적인 양자화 방식(PTQ)보다 모델의 품질 저하를 최소화하며, 특히 모바일 전용 양자화 스키마를 통해 소형 모델(E2B)의 메모리 사용량을 1GB 미만으로 획기적으로 줄였습니다. 이를 통해 소비자용 GPU 및 모바일 환경에서도 로컬 기반의 고성능 AI 모델을 원활하게 실행할 수 있게 되었습니다.

로컬-모델 양자화 온디바이스-AI

Hacker News • 59일 전

IMP 8

로터리 GPU: 제한된 VRAM 환경에서의 대규모 MoE 모델 로컬 실행 탐구

이 논문은 VRAM이 8GB에 불과한 소비자용 노트북에서 약 350억 파라미터 규모의 대규모 MoE 모델을 로컬 환경에서 실행할 수 있는 '로터리 GPU' 기법을 제안합니다. 실험 결과, 약 6.3GB의 VRAM만 사용하면서도 초당 21.06 토큰의 디코딩 처리량을 달성하며 뛰어난 메모리 효율성을 입증했습니다. 이는 클라우드 인프라에 의존하기 어려운 하드웨어, 보안, 예산 제약이 있는 환경에서도 거대 언어 모델(LLM)을 효과적으로 활용할 수 있는 가능성을 제시한다는 점에서 매우 중요합니다.

로컬-LLM MoE 메모리-최적화

Hacker News • 60일 전

IMP 8

리퀴드 AI, 38T 토큰 학습 8B MoE 모델 공개

리퀴드 AI는 엣지 환경에 최적화된 혼합 전문가(MoE) 구조의 새로운 언어 모델 'LFM2.5-8B-A1B'를 발표했습니다. 이번 모델은 기존 대비 3배 이상 확장된 38조 개의 토큰으로 사전 학습되었으며, 컨텍스트 윈도우가 128K로 늘어났고 추론 성능이 대폭 향상되었습니다. 특히 어휘량을 두 배로 늘려 비 라틴어권 언어의 토크나이징 효율을 높이고, 대규모 강화 학습을 적용해 가벼운 소비자용 하드웨어에서도 강력한 온디바이스 성능을 발휘하는 것이 가장 큰 특징입니다.

온디바이스-AI 혼합-전문가-모델 강화-학습

Hacker News • 114일 전

IMP 8

애플 M3 프로에서 구동되는 온디바이스 실시간 멀티모달 AI

해커뉴스에 공개된 'Parlor' 프로젝트는 서버 비용 없이 로컬 기기에서 완전히 무료로 실시간 음성 및 시각 대화가 가능한 온디바이스 AI 데모입니다. 구글의 소형 모델인 Gemma 4 E2B와 Kokoro TTS를 활용하여 애플 M3 Pro 환경에서 약 2.5~3초의 종단 간 지연 시간을 달성했습니다. 이는 외부 API나 고가의 서버 없이도 로컬 환경에서 원활한 언어 학습 및 다양한 멀티모달 인터랙션이 가능해졌다는 점에서 오픈소스 AI 생태계의 중요한 진전으로 평가됩니다.

온디바이스-ai 멀티모달 gemma-4