DeepSeek-V4 Flash 대규모 코드 테스트, 정확도 압도적
Reddit 사용자가 DeepSeek-V4 Flash 모델을 대규모 코드 변경 작업에 테스트한 결과, 복잡한 도구(Tool) 호출과 문맥 유지 능력에서 매우 뛰어난 정확도를 보였다고 평가했습니다. 100여 회의 도구 호출 동안 단 한 건의 오류도 없었으며, 오픈웨이트(Open-weights) 모델 중 드문 안정성을 입증했습니다. 다만 토큰 생성 속도가 느리고 추론에 시간이 오래 걸린다는 단점이 있습니다.
v4 flash 모델로 몇 가지 테스트 작업을 진행해봤습니다. 문맥 관리(Context management), 도구 활용 정확도(Tool use accuracy), 그리고 추론 과정(Thinking traces)이 모두 훌륭했습니다. 제가 테스트해 본 오픈웨이트(Open-weights) 모델들 중 다중 도구 호출(Multi-tool calls)이나 복잡한 기본 도구 정의(Native tool definitions)에서 혼동을 일으키지 않는 몇 안 되는 모델 중 하나입니다.
여러 차례의 실행 동안 최소 100번 이상의 도구 호출(Tool calls)을 수행했는데, 단 한 건의 오류도 없었습니다. 여러 파일을 동시에 편집할 때조차도 말이죠.
단점이라면 토큰 생성(Token generation) 속도가 느리고 생각(추론)을 마치는 데 시간이 꽤 걸린다는 점입니다 (제가 보여드리진 않았지만, 계획 및 실행을 위해 생각하는 데만 수분이 걸렸습니다).
소식에 따르면 DeepSeek가 2026년 하반기에 훨씬 더 많은 컴퓨팅 용량을 온라인에 풀 예정이라고 합니다. 기대됩니다. 가보자고!