밀집 모델 대결: 느린 게 더 빠르다?
이 글은 최신 소규모 밀집 모델인 Qwen3.6 27B의 성능을 이전 버전(Qwen3.5 27B) 및 Gemma 4 31B와 다각적으로 비교 평가합니다. 수학 및 세계 지식 벤치마크에서 Qwen3.6이 눈에 띄는 향상을 보였지만, 전반적인 비에이전트(Non-agentic) 과제와 지시어 수행 능력에서는 Gemma 4가 여전히 우수한 경쟁력을 입증했습니다. 실무적 관점에서 각 모델의 정확도와 효율성, 그리고 기대와 다른 벤치마크 결과의 이면을 확인할 수 있는 중요한 분석입니다.
Qwen3.6 27B vs Qwen3.5 27B vs Gemma 4 31B: 정확도, 지연 시간, 메모리, 토큰 효율성 테스트 결과. Qwen3.6은 Qwen3.5보다 개선되었지만, Gemma 4는 여전히 놀라운 경쟁력을 유지하고 있다. (Benjamin Marie, 2026년 5월 5일)
이전 글에서 나는 Gemma 4 31B가 대부분의 영역에서 Qwen3.5 27B보다 우수하거나 비슷하며, 비슷하거나 더 나은 정확도와 더 낮은 지연 시간(latency)을 보인다고 평가한 바 있다. (글 읽기: Gemma 4 31B vs Qwen3.5 27B: 추론 속도, 토큰 효율성, 정확도 및 메모리 소비)
하지만 Qwen3.6 업데이트로 이 결론이 바뀔 가능성이 높다. 벤치마크 상으로 Qwen3.6은 Qwen3.5보다 상당히 강력해 보인다. 따라서 이 모델 클래스(동일 규모)에서 최고의 정확도는 이제 Qwen3.6이 달성했을 가능성이 높지만, 그에 따른 비용은 얼마일까? 그리고 이러한 트레이드오프는 작업에 따라 어떻게 달라질까?
이 기사는 'The Kaitchup – AI on a Budget'의 유료 구독자 지원 콘텐츠입니다.
이 기사에서 이 질문들에 답해보겠다. 나는 '생각(thinking)' 모드를 활성화한 경우와 비활성화한 경우 모두에 대해 정확도, 지연 시간 및 토큰 효율성을 측정했으며, 이 결과를 이전에 Qwen3.5 27B 및 Gemma 4 31B에서 얻은 수치와 비교했다. 모든 결과를 직접적으로 비교할 수 있도록 완전히 동일한 테스트 환경(setup)을 사용했다.
감사의 말 (Acknowledgments) 이 기사는 Verda의 관대한 컴퓨팅 후원 없이는 불가능했을 것이다. 이 연구 전체에 걸쳐 Verda의 B200 및 RTX Pro 6000 GPU를 사용했다. Verda는 B200 및 B300과 같은 최고급 GPU에 대한 액세스를 제공하며(GB300 지원 예정), 시장에서 시간당 가장 저렴한 RTX 6000 Ada와 같은 소규모 GPU도 제공한다. Verda는 주권, 지속 가능성, 데이터 프라이버시 및 성능을 핵심으로 하는 유럽의 AI 중심 클라우드 및 GPU 인프라 제공업체이다.
Qwen3.6 27B: Gemma 4 및 Qwen3.5보다 훨씬 나은 정확도? 결과를 살펴보기 전에 짚고 넘어가야 할 점이 있다. 내가 사용한 모든 벤치마크는 비에이전트(non-agentic) 방식이며 외부 도구 호출(tool calls)을 사용하지 않는다는 것이다. 이러한 설정은 더 강력한 에이전트 성능을 위해 특별히 미세 조정된 것으로 보이는 Qwen3.6에게 특별히 유리하지 않다. 실제로 내가 실행한 여러 벤치마크에서 Qwen3.6은 Qwen3.5와 Gemma 4 모두에 뒤처졌지만, 일부 벤치마크에서는 상당히 뛰어난 성능을 보였다.
고난도 수학 문제: AIME AIME로 측정한 고난도 수학 문제에서 Qwen3.6은 Qwen3.5와 Gemma 4를 모두 크게 앞섰다. 또한 Math 500과 같은 비교적 간단한 수학 벤치마크에서도 Qwen3.5보다 더 나은 성능을 보였다.
단일 턴 코딩: LiveCodeBench LiveCodeBench로 측정한 단일 턴 코딩 작업에서 Qwen3.6은 Qwen3.5보다 향상되었지만 여전히 Gemma 4에는 약간 못 미쳤다.
세계 지식: MMLU Pro Qwen3.6은 더 강력한 세계 지식을 보여주었다. MMLU Pro에서 Qwen3.5와 Gemma 4보다 더 정확하게 답변했다.
기이한 결과들 (The strange results) 일부 결과는 더 놀라웠다.
첫째, IFBench로 측정한 결과, Qwen3.6은 지시어 수행 능력(instructions following)에서 Qwen3.5보다 현저히 떨어졌다.
둘째, Qwen3.6은 GPQA Diamond에서도 상당히 저조한 성능을 보였다. Qwen이 이 벤치마크에서 Qwen3.5보다 2.3포인트 향상되었다고 발표했기 때문에 이는 예상 밖의 결과였다. 내 테스트 설정에 문제가 있었던 걸까?
스스로 결과에 의심이 들 때마다, 일부 벤치마크를 동일하게 실행하는 'Artificial Analysis'의 결과와 교차 확인한다. 이번 경우에도 그들은 GPQA Diamond에서 Qwen3.5가 Qwen3.6보다 더 나은 성능을 보인다는 동일한 결론을 찾았다. 이는 아마도 Qwen이 우리와 다른 것을 테스트했음을 의미할 것이다. 다른 하이퍼파라미터, 다른 버전의 벤치마크, 다른 후처리(post-processing) 방식 또는 평가 설정의 다른 변형이 있었을 수 있다. 이는 서로 다른 그룹에서 발표한 벤치마크 점수를 직접적으로 비교하면 안 된다는 유용한 교훈을 준다.
전반적으로 Qwen3.6은 평균적으로 Qwen3.5보다 약간 더 나을 뿐이며, 이러한 유형의 비에이전트 작업에서는 여전히 Gemma 4에 뒤처진다.
물론 벤치마크 점수는 전체 그림의 일부만 보여줄 뿐이다. 나는 이러한 결과를 더 잘 이해하기 위해 추가 분석을 실행했다. 내가 이제 체계적으로 실행하는 분석 중 하나는 CoDeC 채점(scoring)이다...