메뉴

#Gemma 4

LL
r/LocalLLaMA 23일 전
IMP 8

LLaMA.cpp에 다중 토큰 예측 도입, Gemma 4 속도 40% 향상

오픈소스 로컬 AI 프로젝트인 LLaMA.cpp에 다중 토큰 예측(Multi-Token Prediction) 기능이 구현되어 추론 속도가 대폭 향상되었습니다. MacBook Pro M5Max 환경에서 테스트한 결과, Gemma 26B 모델의 토큰 생성 속도가 기존 97 tokens/s에서 138 tokens/s로 약 40% 증가했습니다. 이는 로컬 환경에서 구동되는 소규모 모델의 실사용 성능을 크게 끌어올리는 중요한 최적화 성과입니다.

로컬 AI 추론 최적화 llama.cpp
TD
The Decoder 24일 전
IMP 8

구글, 멀티 토큰 예측으로 Gemma 4 속도 3배 향상

구글이 공개형 AI 모델인 Gemma 4에 '멀티 토큰 예측(MTP)' 초안 생성기를 도입해 텍스트 생성 속도를 최대 3배까지 높였습니다. 이 기술은 메인 모델이 데이터를 불러오며 대기하는 시간 동안 소형 보조 모델이 여러 토큰을 미리 제안하고 메인 모델이 이를 한 번에 검증하는 방식으로 작동합니다. 품질 저하 없이 스마트폰, 로컬 PC, 클라우드 환경 모두에서 빠른 처리가 가능하며, 소스코드는 Apache 2.0 라이선스로 공개되었습니다.

구글 Gemma 4 모델 최적화
MP
MarkTechPost 25일 전
IMP 8

구글 AI, Gemma 4용 MTP 공개…품질 손실 없이 최대 3배 빠른 추론

구글 AI가 Gemma 4 모델 패밀리를 위해 다중 토큰 예측(MTP) 초안화기(Drafter)를 새롭게 공개했습니다. 이 도구는 추측적 디코딩(Speculative Decoding) 기술을 활용하여 모델의 품질 저하 없이 최대 3배 빠른 추론 속도를 달성합니다. 이는 실시간 애플리케이션이나 대규모 데이터 처리를 다루는 개발자들에게 AI 모델의 지연 시간을 획기적으로 줄여줄 매우 중요한 성능 개선입니다.

구글 AI Gemma 4 추론 속도 최적화
GB
Google AI Blog 26일 전
IMP 9

구글이 발표한 2026년 4월 AI 최신 소식

구글은 2026년 4월, 기업과 개인의 업무 혁신을 이끌 '에이전트(Agent) 시대'의 핵심 기술들을 대거 공개했습니다. 주요 발표로는 복잡한 업무를 자율적으로 수행하는 'Gemini Enterprise Agent Platform', 구글 8세대 TPU, 그리고 강력한 성능의 오픈 소스 모델인 'Gemma 4'가 포함되어 있습니다. 이와 함께 코딩 튜터 기능이 추가된 Colab, 데이터 분석 도구인 Deep Research Max 등 AI 활용을 극대화하는 실용적인 도구들이 선보여 현업의 작업 효율을 크게 높일 것으로 기대됩니다.

구글 클라우드 AI 에이전트 Gemma 4
LL
r/LocalLLaMA 30일 전
IMP 7

로컬 LLM 게임개발 대결: Gemma 4vs Qwen 3.6

MacBook Pro 환경에서 오픈소스 로컬 LLM인 Gemma 4 31B와 Qwen 3.6 27B를 대상으로 원샷 팩맨 게임 생성 능력을 비교한 결과, Gemma 4가 압도적인 차이로 승리했습니다. Qwen이 더 긴 코드를 생성하며 창의성을 보여줬으나, Gemma는 훨씬 짧은 시간 안에 논리적이고 버그 없는 완성도 높은 게임 로직을 구현해냈습니다. 이는 AI 코딩에서 단순 토큰 생성 속도나 길이보다 코드 품질과 논리적 완성도가 더 중요하다는 것을 시사합니다.

로컬 LLM 게임 개발 코드 생성
LL
r/LocalLLaMA 32일 전
IMP 7

로컬에서 Qwen 3.6, Gemma 4 구동 체감기

작성자는 시간당 200달러를 받는 전문가가 수행하던 실무 작업을 로컬 LLM으로 대체하여 성공적으로 운영 중입니다. 특히 단일 RTX 3090 환경에서도 Qwen 3.6 27B 모델이 매우 빠르고 쾌적하게 돌아가는 점을 강조하며, 모델의 약점을 보완하는 시스템 구축이 핵심이라고 설명합니다.

로컬 LLM Qwen 3.6 Gemma 4
LL
r/LocalLLaMA 55일 전
IMP 7

Gemma 4 기반 안드로이드 자율 제어 앱 오픈소스 공개

구글의 소형 언어 모델인 Gemma 4를 탑재하여 안드로이드 스마트폰을 자율적으로 제어하는 오픈소스 앱 '포켓클로(PokeClaw)'가 공개되었습니다. 이 앱은 클라우드나 외부 API 없이 기기 내부에서 완벽하게 동작하는 온디바이스(On-device) 폐루프(Closed loop) 구조를 갖추고 있어 프라이버시와 실용성 면에서 주목받습니다. 개발자는 이틀 만에 프로톃입을 구축했으며, 채팅 문맥을 파악하고 자동 답장하는 기능 등이 포함된 최신 버전을 깃허브에 공개했습니다.

온디바이스 AI 안드로이드 자동화 Gemma 4
LL
r/LocalLLaMA 57일 전
IMP 7

구글 Gemma 4 완벽 시각적 가이드

Maarten Grootendorst가 작성한 이 가이드는 구글의 최신 오픈소스 모델인 Gemma 4의 핵심 아키텍처와 기술적 특징을 시각적으로 알기 쉽게 설명합니다. 개발자와 실무자들은 이를 통해 Gemma 4가 기존 모델 대비 어떤 구조적 진보를 이뤄냈는지, 그리고 어떻게 효율적으로 활용할 수 있는지 빠르게 파악할 수 있습니다. 최신 AI 모델 트렌드와 오픈소스 생태계의 발전 방향을 이해하는 데 매우 중요한 자료입니다.

Gemma 4 구글 딥마인드 오픈소스 모델
LL
r/LocalLLaMA 58일 전
IMP 5

Gemma 4 모델도 훌륭하지만, Qwen의 완성도에 감탄하게 되는 이유

Reddit 사용자가 새로 출시된 Gemma 4 모델을 테스트해 보고 훌륭한 성능을 인정했습니다. 하지만 동시에 Qwen 팀이 이룬 높은 수준의 품질과 일반 가용 하드웨어에서도 구동 가능한 넓은 컨텍스트 윈도우(Context Window)의 가치를 더욱 깊이 체감하게 되었다고 평가했습니다. 이는 오픈소스 LLM 시장에서 소비자 하드웨어 최적화와 성능의 균형이 얼마나 중요한지를 보여주는 실무적 지표입니다.

Gemma 4 Qwen 오픈소스 LLM
HN
Hacker News 58일 전
IMP 8

구글, Gemma 4 오픈 모델 공개

구글이 모바일 및 사물인터넷(IoT) 기기를 위한 최신 오픈 모델인 Gemma 4를 발표했습니다. 이 모델은 컴퓨팅 및 메모리 효율성을 극대화(E2B & E4B)하는 것을 핵심 목표로 삼고 있습니다. 제한된 하드웨어 자원을 가진 엣지 디바이스에서도 고도화된 AI 지능을 구동할 수 있게 되었다는 점에서 실무적인 의의가 큽니다.

구글 Gemma 4 오픈소스 모델