HN
Hacker News • 4일 전
IMP 8
DeepSWE: 데이터 오염 없는 장기 코딩 에이전트 벤치마크
기존 SWE-bench Pro의 한계를 극복하고 데이터 오염(Data Contamination) 문제를 원천적으로 차단한 새로운 소프트웨어 엔지니어링 벤치마크인 DeepSWE가 공개되었습니다. 이 벤치마크는 에이전트가 스스로 탐색하며 문제를 해결해야 하는 실제 개발 환경과 유사한 복잡한 과제를 제공하며, GPT-5.5가 70%의 해결률로 최고 성능을 기록했습니다.
벤치마크 코딩 에이전트 DeepSWE