메뉴
BL
r/LocalLLaMA 36일 전

DeepSeek-V4 Flash 대규모 코드 테스트, 정확도 압도적

IMP
7/10
핵심 요약

Reddit 사용자가 DeepSeek-V4 Flash 모델을 대규모 코드 변경 작업에 테스트한 결과, 복잡한 도구(Tool) 호출과 문맥 유지 능력에서 매우 뛰어난 정확도를 보였다고 평가했습니다. 100여 회의 도구 호출 동안 단 한 건의 오류도 없었으며, 오픈웨이트(Open-weights) 모델 중 드문 안정성을 입증했습니다. 다만 토큰 생성 속도가 느리고 추론에 시간이 오래 걸린다는 단점이 있습니다.

번역된 본문

v4 flash 모델로 몇 가지 테스트 작업을 진행해봤습니다. 문맥 관리(Context management), 도구 활용 정확도(Tool use accuracy), 그리고 추론 과정(Thinking traces)이 모두 훌륭했습니다. 제가 테스트해 본 오픈웨이트(Open-weights) 모델들 중 다중 도구 호출(Multi-tool calls)이나 복잡한 기본 도구 정의(Native tool definitions)에서 혼동을 일으키지 않는 몇 안 되는 모델 중 하나입니다.

여러 차례의 실행 동안 최소 100번 이상의 도구 호출(Tool calls)을 수행했는데, 단 한 건의 오류도 없었습니다. 여러 파일을 동시에 편집할 때조차도 말이죠.

단점이라면 토큰 생성(Token generation) 속도가 느리고 생각(추론)을 마치는 데 시간이 꽤 걸린다는 점입니다 (제가 보여드리진 않았지만, 계획 및 실행을 위해 생각하는 데만 수분이 걸렸습니다).

소식에 따르면 DeepSeek가 2026년 하반기에 훨씬 더 많은 컴퓨팅 용량을 온라인에 풀 예정이라고 합니다. 기대됩니다. 가보자고!

원문 보기
원문 보기 (영어)
Did some test tasks with v4 flash. The context management, tool use accuracy and thinking traces all looked excellent. It is one of the few open-weights models I have tested that does not get confused with multi tool calls or complex native tool definitions It must have called at least 100 tool calls over multiple runs, not a single error, not even when editing many files at once Downside: slow token generation and takes a while to finish thinking (I have not shown but it thought for good few minutes for planning and execution) Read that deepseek is bringing a lot more capacity online in H2'26. Looking forward to it, LFG