LM Studio CLI와 클로드 코드로 구글 제마 4 로컬 구동하기
LM Studio 0.4.0의 새로운 헤드리스 CLI와 클로드 코드(Claude Code)를 연동하여 macOS 환경에서 구글 제마 4 26B 모델을 로컬로 구동하는 방법을 소개합니다. 48GB 메모리가 탑재된 맥북 프로에서 초당 51토큰의 속도를 내며, API 비용 없이도 400B 이상의 거대 모델과 필적하는 성능을 제공하는 것이 가장 큰 특징입니다.
LM Studio의 새로운 헤드리스(Headless) CLI와 클로드 코드(Claude Code)를 사용하여 로컬에서 구글 제마(Gemma) 4 구동하기
LM Studio 0.4.0은 llmster와 lms CLI를 도입했습니다. 여기서는 Claude Code와 함께 사용할 수 있도록 macOS 환경에서 로컬 추론용으로 Gemma 4 26B를 설정하는 방법을 설명합니다. George Liu, 2026년 4월 4일
왜 모델을 로컬에서 구동해야 할까요? 클라우드 AI API는 문제가 생기기 전까지는 훌륭합니다. 사용량 제한(Rate limit), 사용 비용, 개인정보 보호 우려, 네트워크 지연 시간 등 여러 요인이 겹칩니다. 코드 리뷰, 문서 초안 작성, 프롬프트 테스트와 같은 빠른 작업의 경우, 사용자의 하드웨어에서 완전히 실행되는 로컬 모델은 확실한 이점을 제공합니다. API 비용이 들지 않고, 데이터가 기기를 떠나지 않으며, 안정적인 가용성을 보장합니다.
구글의 Gemma 4는 혼합 전문가(Mixture-of-Experts, MoE) 아키텍처 덕분에 로컬 사용에 매우 적합합니다. 26B 파라미터 모델은 순방향 패스(Forward pass)당 4B 파라미터만 활성화하므로, 26B 밀집형(Dense) 모델을 감당할 수 없는 하드웨어에서도 원활하게 실행됩니다. 필자의 48GB 통합 메모리가 탑재된 14인치 MacBook Pro M4 Pro에서는 부담 없이 실행되며 초당 51 토큰을 생성합니다. 다만 필자의 경험상 Claude Code 내부에서 사용할 때는 속도 저하가 상당히 발생했습니다.
Gemma 4 모델 패밀리 구글은 단일 모델이 아닌 4개 모델로 구성된 Gemma 4 패밀리를 출시했습니다. 이 라인업은 다양한 하드웨어 목표를 아우릅니다.
"E" 모델(E2B, E4B)은 기기 내 배포에 최적화하기 위해 계층별 임베딩(Per-Layer Embeddings)을 사용하며, 오디오 입력(음성 인식 및 번역)을 지원하는 유일한 변형입니다. 31B 밀집형(Dense) 모델은 가장 뛰어난 성능을 자랑하며, MMLU Pro에서 85.2%, AIME 2026에서 89.2%의 점수를 기록했습니다.
왜 26B-A4B를 선택했는가 혼합 전문가(MoE) 아키텍처가 핵심입니다. 이 모델은 128개의 전문가와 1개의 공유 전문가를 갖추고 있지만, 토큰당 8개의 전문가(3.8B 파라미터)만 활성화합니다. 일반적인 경험칙에 따르면 MoE 밀집형 모델의 동등한 품질은 대략 '총 파라미터 × 활성 파라미터의 제곱근'으로 추정되며, 이는 해당 모델이 약 10B 파라미터의 유효 성능을 가진다는 것을 의미합니다. 실제로 이 모델은 4B 밀집형 모델과 비견되는 추론 비용으로, 그 무게급을 훨씬 뛰어넘는 품질을 제공합니다.
벤치마크에서 MMLU Pro 82.6%, AIME 2026 88.3%를 기록하며, 실행 속도가 훨씬 빠르면서도 밀집형 31B(85.2%, 89.2%)와 근접한 성능을 보여줍니다. 아래 차트가 이를 잘 설명해 줍니다. 이 차트는 최근의 오픈 웨이트(Open-weight) 모델을 대상으로 사고(Thinking) 기능이 활성화된 상태에서 총 모델 크기에 따른 Elo 점수를 로그 스케일로 나타낸 것입니다. 왼쪽 상단의 파란색 영역이 우리가 원하는 구간인 '높은 성능, 작은 크기'입니다. Gemma 4 26B-A4B(Elo 약 1441)는 이 구역에 확고히 자리 잡고 있으며, 25.2B 파라미터라는 무게를 훌쩍 뛰어넘는 성능을 보여줍니다.
31B 밀집형 변형은 점수가 약간 더 높지만(약 1451) 여전히 놀랍도록 컴팩트합니다. 참고로 Qwen 3.5 397B-A17B(약 1450 Elo) 및 GLM-5(약 1457 Elo)와 같은 모델은 유사한 점수에 도달하기 위해 100~600B의 파라미터가 필요합니다. Kimi-K2.5(약 1457 Elo)는 1,000B 이상을 필요로 합니다. 26B-A4B는 적은 파라미터로 경쟁력 있는 Elo 점수를 달성하며, 이는 곧 더 낮은 메모리 요구 사항과 더 빠른 로컬 추론으로 직결됩니다.
바로 이 점이 MoE 모델을 로컬 사용에 혁신적으로 만드는 이유입니다. 400B 이상의 거대한 파라미터를 가진 모델과 경쟁하기 위해 클러스터나 고가의 GPU 랙이 필요하지 않습니다. 48GB 통합 메모리를 갖춘 노트북 하나면 충분합니다. 48GB 메모리를 탑재한 Mac에서 로컬 추론을 할 때, 이 모델은 가장 완벽한 최적점(Sweet spot)입니다. 밀집형(Dense) 31B는 모든 파라미터가 매 순방향 패스에 참여하기 때문에 더 많은 메모리를 소비하고 토큰 생성 속도가 느려집니다. E4B는 더 가볍지만 성능이 눈에 띄게 떨어집니다. 반면 26B-A4B는 필자의 하드웨어에서 초당 51토큰의 속도로 256K의 최대 컨텍스트, 비전 지원(스크린샷 및 다이어그램 분석에 유용), 네이티브 함수/도구 호출, 그리고 구성 가능한 사고 모드(Thinking mode)를 통한 추론 기능을 모두 제공합니다.
LM Studio 0.4.0의 변화 LM Studio는 꽤 오랫동안 로컬 모델을 실행하는 데 널리 사용되는 데스크톱 앱이었습니다. 버전 0.4.0은 데스크톱 앱에서 추출한 핵심 추론 엔진인 llmster를 도입하고 이를 독립 실행형 서버로 패키징하여 근본적으로 아키텍처를 변경했습니다. 그 결과, 이제 lms CLI를 사용하여 명령줄에서 LM Studio를 완전히 실행할 수 있습니다. GUI가 필요 없습니다.