r/LocalLLaMA • 92일 전

2026년형 4B 파라미터 모델 벤치마크

IMP

7/10

핵심 요약

한 Reddit 사용자가 최근 출시된 3~4B(십억 개 파라미터) 크기의 소형 오픈소스 AI 모델 5종을 대상으로 종합적인 능력을 테스트했습니다. 그 결과 엔비디아(NVIDIA)의 'Nemotron-3-Nano'가 막강한 추론 및 금융 계산 능력을 바탕으로 압도적인 1위를 차지했으며, 알리바바의 'Qwen 3.5'는 토큰 버짝 문제로 인해 최하위권을 기록했습니다. 이번 벤치마크는 각 개발사(IBM, MS, NVIDIA 등)의 모델들이 '범용'으로 마케팅되고 있음에도 불구하고, 실제로는 코딩이나 추론 등 특정 분야에 강하게 특화되어 있다는 사실을 보여줍니다.

번역된 본문

18GB 메모리를 탑재한 M3 Pro 환경에서 진행한 두 번째 벤치마크 결과입니다. 지난주에는 78B 크기의 특화형 모델과 범용 모델을 비교했는데(당시에 생각(Thinking) 모델에 128 토큰 버짯을 부여하는 바람에 결과를 망쳐서 사과글을 올렸죠). 이번 주에는 '2026년형 4B 클래스'를 살펴봅니다. 34B 크기의 최근 출시되었거나 현재 활발히 사용되는 모델들을 동일한 작업으로 맞붙여 보았습니다.

테스트 라인업 (디스크 상의 크기): gemma4:e4b: 9.6 GB (구글, 2026년 4월 2일) qwen3.5:4b: 3.4 GB (알리바바, 2026년 3월 1일) granite4:3b: 2.1 GB (IBM, 2025년 10월) nemotron-3-nano:4b: 2.8 GB (엔비디아, 2026년 3월) phi4-mini:3.8b: 2.5 GB (마이크로소프트, 2024년 말)

총 39개의 테스크: 15개 재무(PER, NPV, CAGR, 샤프 지수), 15개 추론(응용 문제, 삼단논법, 확률), 9개 코딩(FizzBuzz 수준)으로 구성했습니다. 각 (모델 × 태스크) 조합당 3번의 시행을 거쳐 중간값(median)을 집계했습니다. 온도(temperature)=0, 시드(seed)=42, 최대 토큰(max_tokens)=1024로 설정했습니다.

헤드라인: Nemotron 3 Nano의 압도적인 승리

모델 전체 재무 추론 코드 nemotron-3-nano:4b 85% 100% 80% 67% phi4-mini:3.8b 77% 80% 60% 100% gemma4:e4b 62% 60% 60% 67% granite4:3b 54% 60% 20% 100% qwen3.5:4b 15% 20% 20% 0%

엔비디아의 나노(Nano) 모델은 출시된 지 한 달밖에 안 되었음에도 불구하고 재무 문제에서 15개 중 15개의 정답을 기록했습니다. (요약본(Gist)에서 확인할 수 있는) 응답을 살펴보면 이 모델은 생각(Thinking) 모델이며, 최종 답변 전에 </think> 태그를 사용하고, 정해진 1024 토큰 버짯 내에서 실제로 생각 과정을 무사히 마칩니다. 추론 과정이 아주 깔끔합니다. "(1.08)^5를 계산합니다. 1.08^2=1.1664, ^3=1.259712, ^4=1.36048896, ^5=1.4693280768. 따라서 PV(현재가치) = 100,000 / 1.4693280768 = 약 68,058." 이는 디스크 상에서 고작 2.8 GB 크기밖에 안 되는 모델이 올바른 중간 계산 과정을 거쳐 정확한 답을 도출해낸 것입니다. 특히 재무 분야에서는 크기가 더 큰 다른 모델들까지 모두 이겼습니다.

이 크기에서는 각 개발사(Lab)의 성향이 확실히 드러난다

granite4:3b와 nemotron-3-nano:4b의 카테고리별 결과를 비교해 보세요:

granite: 코드 100%, 추론 20% nemotron: 코드 67%, 추론 80%

두 모델은 34 GB 크기로 거의 완벽하게 반대되는 프로필을 보여줍니다. Granite는 약한 추론 능력을 가진 코딩 전문가이고, Nemotron은 평범한 코딩 능력을 가진 추론 전문가입니다. 두 모델 모두 IBM이나 엔비디아 같은 개발사가 전문가용(Specialist)으로 포지셔닝하지 않고 이 크기에서는 범용 모델로 마케팅합니다. 하지만 마케팅과 달리 데이터는 명확한 특화(Specialization) 경향을 보여줍니다.

phi4-mini는 그 중간에 위치합니다: 코드 100%, 재무 80%, 추론 60%. 이 그룹에서 가장 균형 잡혀 있으며, 디스크 용량 1GB당 정확도 30.8%를 기록하며 용량 대비 최고의 효율성(Bang-for-GB)을 자랑합니다.

Qwen 3.5 4b의 문제점

정확도 15%. 39개의 응답 중 30개가 비어 있었습니다 (1024 토큰 버짯 중 평균 응답 길이: 21자). 4개월 전 첫 번째 벤치마크에서 Qwen3:4b가 보여준 것과 정확히 같은 실패 모드입니다. 같은 무게(Weight) 클래스의 비생각(Non-thinking) 모델에게 합리적인 수준인 고정 버짯 내에서 생각을 끝내지 못하는 생각 모델의 한계입니다.

잘린 응답 중 하나를 살펴보면: 수식의 중간에 "$$PV = \frac{100,000}{(1 + 0.08)^5}$$" 까지 도달한 후 토큰 버짯이 부족해집니다. 이 모델은 고장 난 것(b

원문 보기

원문 보기 (영어)

Bench 2 from my 18GB M3 Pro. Last week was specialists vs generalists at 7-8B (which I hosed by giving thinking models a 128-token budget, so half the post was an apology). This week: the 4B class of 2026, every model released or actively-current at the 3-4B size, head-to-head on the same task suite. Lineup (sizes on disk): gemma4:e4b 9.6 GB Google, Apr 2 2026 qwen3.5:4b 3.4 GB Alibaba, Mar 1 2026 granite4:3b 2.1 GB IBM, Oct 2025 nemotron-3-nano:4b 2.8 GB NVIDIA, Mar 2026 phi4-mini:3.8b 2.5 GB Microsoft, late 2024 39 tasks: 15 finance (P/E, NPV, CAGR, Sharpe), 15 reasoning (word problems, syllogisms, probability), 9 code (FizzBuzz-tier). 3 trials per (model × task), median aggregation. temp=0, seed=42, max_tokens=1024. ## Headline: Nemotron 3 Nano won and it's not close model overall finance reasoning code nemotron-3-nano:4b 85% 100% 80% 67% phi4-mini:3.8b 77% 80% 60% 100% gemma4:e4b 62% 60% 60% 67% granite4:3b 54% 60% 20% 100% qwen3.5:4b 15% 20% 20% 0% NVIDIA's nano is barely a month old and went 15-for-15 on finance. Looking at the responses (visible in the gist), it's a thinking model, `</think>` tags before final answers, and it actually finishes its thinking inside the 1024-token budget. The reasoning is clean: "compute (1.08)^5. 1.08^2=1.1664, ^3=1.259712, ^4=1.36048896, ^5=1.4693280768. So PV = 100,000 / 1.4693280768 = approx 68,058." That's a 2.8 GB model on disk producing the right answer with the right intermediate work. On finance specifically, it beat every larger model. ## Lab personalities are real at this size Look at the per-category lines for granite4:3b vs nemotron-3-nano:4b: granite: code 100%, reasoning 20% nemotron: code 67%, reasoning 80% Two ~3-4 GB models, almost-mirror-image profiles. Granite is a dedicated coder with weak reasoning. Nemotron is a dedicated reasoner with mediocre code. Both come from labs (IBM, NVIDIA) that don't position these as specialist models, they're marketed as general-purpose at this size. The marketing is wrong; the data shows clear specialization. phi4-mini sits in between: 100% on code, 80% on finance, 60% on reasoning. The most balanced of the bunch and the bang-for-GB winner at 30.8 accuracy-pct per GB on disk. ## The Qwen 3.5 4b problem 15% accuracy. 30 of 39 responses empty (avg response length: 21 chars out of a 1024-token budget). Same failure mode as Qwen3:4b in bench 1 four months ago. Thinking model that can't finish thinking inside a fixed budget that's reasonable for non-thinking models in the same weight class. Looking at one of the truncated responses: it gets to "$$PV = \frac{100,000}{(1 + 0.08)^5}$$" and runs out of budget mid-formula. The model isn't b

로컬 AI 오픈소스 LLM 엔비디아 Nemotron 벤치마크 소형 언어 모델

깃허브 코파일럿, 2026년 6월부터 토큰 기반 과금 전환

2026년 6월 1일부터 GitHub Copilot의 요금제가 기존의 '프리미엄 요청 수' 기반에서 실제 사용량을 추적하는 '토큰 기반 과금'으로 전환됩니다. 기존 구독 기본 요금은 유지되며, 제공된 크레딧을 초과할 경우에만 모델별 API 요금에 따라 추가 과금됩니다. 이는 짧은 질문과 수 시간이 소요되는 자율형 에이전트 코딩의 막대한 연산 비용 차이를 합리적으로 반영하기 위한 조치입니다.

GitHub Copilot 토큰 과금 코딩 에이전트