메뉴

#SWE-bench

LL
r/LocalLLaMA 34일 전
IMP 8

SWE-bench, 오염으로 사실상 한계 도달

오래전부터 코딩 AI 성능의 표준이었던 벤치마크 SWE-bench Verified가 데이터 오염 문제와 불량 테스트 케이스로 인해 최신 프론티어 모델의 코딩 능력을 더 이상 제대로 측정하지 못한다는 분석이 나왔습니다. 평가 데이터가 모델 학습에 노출되어 실력 향상이 아닌 사전 지식 암기로 점수가 올라가는 문제가 발생하고 있습니다. 이에 따라 업계는 새로운 대체 평가 지표인 SWE-bench Pro 사용을 권장하고 있습니다.

벤치마크 오염 코딩 AI SWE-bench