DeepSWE: 데이터 오염 없는 장기 코딩 에이전트 벤치마크
기존 SWE-bench Pro의 한계를 극복하고 데이터 오염(Data Contamination) 문제를 원천적으로 차단한 새로운 소프트웨어 엔지니어링 벤치마크인 DeepSWE가 공개되었습니다. 이 벤치마크는 에이전트가 스스로 탐색하며 문제를 해결해야 하는 실제 개발 환경과 유사한 복잡한 과제를 제공하며, GPT-5.5가 70%의 해결률로 최고 성능을 기록했습니다.
DeepSWE는 현재의 공개 벤치마크들에 비해 4가지 주요 진보를 이루어낸 장기적(Long-horizon) 소프트웨어 엔지니어링 벤치마크입니다:
- 데이터 오염 없음 (Contamination free): 기존의 커밋이나 PR에서 변형하지 않고 처음부터 새로 작성된 태스크이므로, 어떤 모델도 사전 학습(Pretraining) 중에 정답을 본 적이 없습니다.
- 높은 다양성 (High diversity): 5개 프로그래밍 언어에 걸쳐 91개의 방대한 리포지토리를 아우르는 태스크를 제공합니다.
- 실제 환경의 복잡성 (Real-world complexity): 프롬프트 길이는 SWE-bench Pro의 절반에 불과하지만, 해결을 위해서는 5.5배 더 많은 코드와 약 2배 더 많은 출력 토큰이 필요합니다.
- 신뢰할 수 있는 검증 (Reliable verification): 구현 세부 사항이 아닌 소프트웨어 동작을 테스트하기 위해 검증자(Verifier)가 수작업으로 작성되었습니다.
기존 벤치마크들은 이러한 측면에서 부족합니다. 선도적인 코딩 에이전트 벤치마크인 SWE-bench Pro는 평균 120줄의 코드만으로 해결되는 태스크를 가지고 있으며, 우리의 감사 결과 검증자가 에이전트의 출력을 8%의 위양성(False positive)과 24%의 위음성(False negative) 비율로 잘못 평가한다는 것을 발견했습니다. 최첨단 AI 연구소들 역시 벤치마크 오염 문제에 대해 점점 더 우려를 표하고 있습니다.
반면 DeepSWE는 최첨단 코딩 에이전트들을 더 명확하게 비교할 수 있게 해줍니다. 공개 벤치마크에서는 비슷해 보였던 모델들이 개발자들이 실제 에이전트 워크플로우에서 겪는 체감 차이와 일치하는 넓고 순서 있는 격차로 나뉩니다.
리더보드 모델 (12 / 16) gpt-5.5 [ xhigh ] 70 % ± 4 % gpt-5.4 [ xhigh ] 56 % ± 5 % claude-opus-4.7 [ max ] 54 % ± 5 % claude-sonnet-4.6 [ high ] 32 % ± 4 % gemini-3.5-flash [ medium ] 28 % ± 4 % gpt-5.4-mini [ xhigh ] 24 % ± 4 % kimi-k2.6 24 % ± 4 % mimo-v2.5-pro 19 % ± 4 % glm-5.1 18 % ± 4 % gemini-3.1-pro 10 % ± 3 % deepseek-v4-pro 8 % ± 2 % gemini-3-flash 5 % ± 2 %
모든 모델은 mini-swe-agent를 사용하여 실행되었습니다. 다른 실행 도구들과의 비교는 'Why mini-swe-agent' 섹션에서 확인할 수 있습니다.
GitHub에서 벤치마크를 확인하고, 위 숫자 뒤에 있는 모든 트레일(rollout)을 탐색하거나, 자신의 에이전트를 벤치마크에 대해 실행해 볼 수 있습니다.
개요
- 장기적 작업, 현실적이고 짧은 프롬프트 DeepSWE의 프롬프트는 개발자가 에이전트에게 말하는 방식과 일치합니다. 즉, 지나치게 장황하고 지시적인 대신, 행동에 중점을 두고 짧으며, 거대한 인터페이스 정의 블록이 없습니다. 에이전트는 변경 사항을 구현할 위치와 방법을 스스로 찾아내야 하므로, 평가되는 기능의 상당 부분은 지나치게 세세하게 지정된 엔지니어링 작업의 단순 실행이 아니라 엔드투엔드 탐색(End-to-end exploration)을 포함합니다.
GitHub 이슈와 풀 리퀘스트에서 가져온 공개 벤치마크는 종종 더 많은 세부 정보인 재현 단계, 추가 컨텍스트, 코드 스니펫, 특정 기호나 서명을 가정하는 테스트 등을 포함합니다. 반면 DeepSWE는 관찰 가능한 동작을 측정하므로 기본 작업이 훨씬 더 길더라도 프롬프트는 짧고 자연스럽게 유지됩니다.
DeepSWE 태스크는 실제 소프트웨어 엔지니어링(SWE) 작업을 반영하여 범위가 더 넓고 세부적으로 덜 지정되어 있습니다.
평균 프롬프트 길이 (SWE-Bench Verified: 1,700 / SWE-Bench Pro: 4,614 / DeepSWE: 2,158) 평균 참조 솔루션 추가 라인 수 (SWE-Bench Verified: 10 / SWE-Bench Pro: 120 / DeepSWE: 668) 참조 솔루션당 평균 편집 파일 수 (SWE-Bench Verified: 1 / SWE-Bench Pro: 5 / DeepSWE: 7)
- 광범위한 리포지토리 커버리지 DeepSWE는 TypeScript, Go, Python, JavaScript, Rust 등 5개 언어에 걸쳐 91개의 활성 오픈 소스 리포지토리를 포괄하는 113개의 태스크를 포함하고 있습니다. 이러한 규모의 샘플링은 Dee