2026년형 4B 파라미터 모델 벤치마크
한 Reddit 사용자가 최근 출시된 3~4B(십억 개 파라미터) 크기의 소형 오픈소스 AI 모델 5종을 대상으로 종합적인 능력을 테스트했습니다. 그 결과 엔비디아(NVIDIA)의 'Nemotron-3-Nano'가 막강한 추론 및 금융 계산 능력을 바탕으로 압도적인 1위를 차지했으며, 알리바바의 'Qwen 3.5'는 토큰 버짝 문제로 인해 최하위권을 기록했습니다. 이번 벤치마크는 각 개발사(IBM, MS, NVIDIA 등)의 모델들이 '범용'으로 마케팅되고 있음에도 불구하고, 실제로는 코딩이나 추론 등 특정 분야에 강하게 특화되어 있다는 사실을 보여줍니다.
18GB 메모리를 탑재한 M3 Pro 환경에서 진행한 두 번째 벤치마크 결과입니다. 지난주에는 78B 크기의 특화형 모델과 범용 모델을 비교했는데(당시에 생각(Thinking) 모델에 128 토큰 버짯을 부여하는 바람에 결과를 망쳐서 사과글을 올렸죠). 이번 주에는 '2026년형 4B 클래스'를 살펴봅니다. 34B 크기의 최근 출시되었거나 현재 활발히 사용되는 모델들을 동일한 작업으로 맞붙여 보았습니다.
테스트 라인업 (디스크 상의 크기): gemma4:e4b: 9.6 GB (구글, 2026년 4월 2일) qwen3.5:4b: 3.4 GB (알리바바, 2026년 3월 1일) granite4:3b: 2.1 GB (IBM, 2025년 10월) nemotron-3-nano:4b: 2.8 GB (엔비디아, 2026년 3월) phi4-mini:3.8b: 2.5 GB (마이크로소프트, 2024년 말)
총 39개의 테스크: 15개 재무(PER, NPV, CAGR, 샤프 지수), 15개 추론(응용 문제, 삼단논법, 확률), 9개 코딩(FizzBuzz 수준)으로 구성했습니다. 각 (모델 × 태스크) 조합당 3번의 시행을 거쳐 중간값(median)을 집계했습니다. 온도(temperature)=0, 시드(seed)=42, 최대 토큰(max_tokens)=1024로 설정했습니다.
헤드라인: Nemotron 3 Nano의 압도적인 승리
모델 전체 재무 추론 코드 nemotron-3-nano:4b 85% 100% 80% 67% phi4-mini:3.8b 77% 80% 60% 100% gemma4:e4b 62% 60% 60% 67% granite4:3b 54% 60% 20% 100% qwen3.5:4b 15% 20% 20% 0%
엔비디아의 나노(Nano) 모델은 출시된 지 한 달밖에 안 되었음에도 불구하고 재무 문제에서 15개 중 15개의 정답을 기록했습니다. (요약본(Gist)에서 확인할 수 있는) 응답을 살펴보면 이 모델은 생각(Thinking) 모델이며, 최종 답변 전에 </think> 태그를 사용하고, 정해진 1024 토큰 버짯 내에서 실제로 생각 과정을 무사히 마칩니다. 추론 과정이 아주 깔끔합니다. "(1.08)^5를 계산합니다. 1.08^2=1.1664, ^3=1.259712, ^4=1.36048896, ^5=1.4693280768. 따라서 PV(현재가치) = 100,000 / 1.4693280768 = 약 68,058." 이는 디스크 상에서 고작 2.8 GB 크기밖에 안 되는 모델이 올바른 중간 계산 과정을 거쳐 정확한 답을 도출해낸 것입니다. 특히 재무 분야에서는 크기가 더 큰 다른 모델들까지 모두 이겼습니다.
이 크기에서는 각 개발사(Lab)의 성향이 확실히 드러난다
granite4:3b와 nemotron-3-nano:4b의 카테고리별 결과를 비교해 보세요:
granite: 코드 100%, 추론 20% nemotron: 코드 67%, 추론 80%
두 모델은 34 GB 크기로 거의 완벽하게 반대되는 프로필을 보여줍니다. Granite는 약한 추론 능력을 가진 코딩 전문가이고, Nemotron은 평범한 코딩 능력을 가진 추론 전문가입니다. 두 모델 모두 IBM이나 엔비디아 같은 개발사가 전문가용(Specialist)으로 포지셔닝하지 않고 이 크기에서는 범용 모델로 마케팅합니다. 하지만 마케팅과 달리 데이터는 명확한 특화(Specialization) 경향을 보여줍니다.
phi4-mini는 그 중간에 위치합니다: 코드 100%, 재무 80%, 추론 60%. 이 그룹에서 가장 균형 잡혀 있으며, 디스크 용량 1GB당 정확도 30.8%를 기록하며 용량 대비 최고의 효율성(Bang-for-GB)을 자랑합니다.
Qwen 3.5 4b의 문제점
정확도 15%. 39개의 응답 중 30개가 비어 있었습니다 (1024 토큰 버짯 중 평균 응답 길이: 21자). 4개월 전 첫 번째 벤치마크에서 Qwen3:4b가 보여준 것과 정확히 같은 실패 모드입니다. 같은 무게(Weight) 클래스의 비생각(Non-thinking) 모델에게 합리적인 수준인 고정 버짯 내에서 생각을 끝내지 못하는 생각 모델의 한계입니다.
잘린 응답 중 하나를 살펴보면: 수식의 중간에 "$$PV = \frac{100,000}{(1 + 0.08)^5}$$" 까지 도달한 후 토큰 버짯이 부족해집니다. 이 모델은 고장 난 것(b