메뉴
BL
r/LocalLLaMA 56일 전

젬마 4 31B, 푸드트럭 벤치마크서 주요 최첨단 모델들 제치고 3위

IMP
6/10
핵심 요약

구글의 오픈소스 모델인 Gemma 4 31B가 '푸드트럭 벤치마크(FoodTruck Bench)'에서 GLM 5, Qwen 3.5 397B 및 모든 Claude Sonnet 모델을 제치고 놀라운 3위를 차지했습니다. 해당 벤치마크의 저자는 아니지만 재미있어서 공유한 이번 결과는, Gemma 4가 이전 모델들이 실패했던 장기적(long-horizon) 에이전트 작업을 더 우수하게 처리함을 시사합니다.

번역된 본문

Gemma 4 31B가 FoodTruck Bench에서 믿을 수 없는 3위를 차지하며 GLM 5, Qwen 3.5 397B, 그리고 모든 Claude Sonnet 모델들을 제쳤습니다!

사람들이 이 결과를 어떻게 설명할지 매우 기대됩니다. 이전에 테스트를 완료하지 못했던 모델들의 사례를 바탕어 볼 때, Gemma 4는 장기적(long-horizon) 작업을 훨씬 더 잘 처리하며, 다음 날의 운영 계획을 세울 때 자신의 조언을 실제로 반영하는 것으로 보입니다.

추가 설명: 저는 이 벤치마크의 제작자가 아닙니다. 그저 이 벤치마크가 마음에 들어 공유하는 것으로, 대부분의 지루한 벤치마크들과 달리 꽤 재미있어 보이거든요.

원문 보기
원문 보기 (영어)
Gemma 4 31B takes an incredible 3rd place on FoodTruck Bench, beating GLM 5, Qwen 3.5 397B and all Claude Sonnets! I'm looking forward to how they'll explain the result. Based on the previous models that failed to finish the run, it would seem that Gemma 4 handles long horizon tasks better and actually listens to its own advice when planning for the next day of the run. EDIT: I'm not the author of the benchmark, I just like it, looks fun unlike most of them.