M3 Pro에서 구동되는 Gemma E2B 실시간 AI
오픈소스 모델인 Gemma를 활용해 오디오와 비디오를 입력받아 음성으로 출력하는 실시간 AI가 Apple M3 Pro 환경에서 로컬 구동되는 것을 확인한 사례입니다. 복잡한 에이전트 코딩은 불가능하지만 다국어 처리가 가능하여 언어 학습용으로 혁신적인 활용성을 보여줍니다. 수년 전 OpenAI가 시연했던 것과 같이 스마트폰 카메라로 사물을 인식하고 모국어로 소통하는 미래가 로컬 환경에서도 가까워지고 있습니다.
Gemma 4 E2B로 자율형 에이전트 코딩(Agentic coding)을 수행할 수는 없겠지만, 이 모델은 새로운 언어를 배우는 사람들에게는 혁신적인 변화를 가져올 것입니다.
몇 년 후 사람들이 이 모델을 스마트폰에서 로컬로 구동할 수 있게 될 상상해 보십시오. 카메라로 사물을 가리키고 그에 대해 대화를 나눌 수 있을 것입니다. 또한 이 모델은 다국어를 지원하므로 원할 때 언제든 모국어로 되돌아가 대화할 수 있습니다. 이는 본질적으로 OpenAI가 몇 년 전에 시연했던 것과 같습니다.
원문 보기 (영어)
브라우저 내장형 AI 'Gemma Gem' 오픈소스 공개
해커뉴스에 구글의 'Gemma 4' 모델을 브라우저 내에서 직접 구동하는 크롬 확장 프로그램 'Gemma Gem'이 공개되었습니다. WebGPU를 활용해 별도의 API 키나 클라우드 없이 기기 내에서 AI가 작동하며, 사용자의 데이터를 외부로 전송하지 않아 프라이버시가 강력하게 보호됩니다. 특히 웹페이지 내용 읽기, 버튼 클릭, 폼 작성, 자바스크립트 실행 등 브라우저 상에서의 에이전트(Agent) 작업 수행이 가능하다는 점이 가장 큰 특징입니다.
라즈베리파이 5 환경에서 Gemma 4 등 다수 모델 벤치마크
라즈베리파이 5(16GB RAM)에 공식 M.2 HAT+와 NVMe SSD를 장착하고 PCIe Gen3로 설정하여 스토리지 읽기 속도를 대폭 끌어올렸습니다. 이를 통해 RAM 용량을 초과하는 대형 언어 모델 구동 시 텍스트 생성 속도가 1.5~2배 향상되었으며, Gemma 4 등 다양한 AI 모델의 실제 추론 성능을 테스트한 결과를 공유했습니다.