메뉴

#가성비

HN
Hacker News 34일 전
IMP 8

오픈소스 에이전트 Dirac, TerminalBench 1위 달성

오픈소스 코딩 에이전트인 Dirac이 gemini-3-flash-preview 모델 기준 TerminalBench-2 리더보드에서 65.2%의 점수로 1위를 차지했습니다. 이 에이전트는 문맥 길이가 길어질 때 발생하는 추론 능력 저하 문제를 해결하기 위해 컨텍스트를 최적화하고, AST(추상 구문 트리) 조작 및 해시 기반 편집을 활용합니다. 그 결과 경쟁 모델 대비 64.8% 낮은 비용으로 더 빠르고 정확한 코딩 작업을 수행할 수 있음을 입증했습니다.

오픈소스 코딩 에이전트 TerminalBench
LL
r/LocalLLaMA 55일 전
IMP 8

젬마 4, 압도적 가성비로 오픈소스 모델 리더보드 흔들어

구글의 오픈소스 모델인 Gemma 4(31B)가 푸드트럭 경영이라는 복잡한 비즈니스 시뮬레이션 벤치마크에서 GPT-5.2 등 고가의 상용 모델들을 압도적인 가성비로 제치며 파란을 일으켰습니다. 한 번 실행에 단 0.20달러라는 저렴한 비용으로 최고 수준의 투자 수익률(ROI)을 달성하며 에이전트(Agent) 워크플로우에서 새로운 최적의 선택지로 떠올랐습니다.

오픈소스 젬마4 벤치마크
HN
Hacker News 59일 전
IMP 6

스텝펀 3.5 플래시, 오픈클로우 300회 테스트서 최고 가성비 입증

오픈클로우 아레나(OpenClaw Arena)에서 진행된 300회의 실전 테스트 결과, 스텝펀 3.5 플래시(StepFun 3.5 Flash) 모델이 최고의 가성비를 입증했습니다. 이 테스트는 최고 수준의 AI 모델들이 실제 작업과 에이전트 환경에서 어떤 성능을 발휘하는지 비교하는 벤치마크입니다. 실무자 관점에서 이 모델은 비용 효율성과 성능의 균형을 가장 잘 맞춘 선택지로 평가받고 있습니다.

스텝펀 오픈클로우 가성비