HN
Hacker News • 24일 전
IMP 8
프로그램벤치: AI가 처음부터 소프트웨어를 재구축할 수 있을까?
최근 발표된 연구 '프로그램벤치(ProgramBench)'는 언어 모델이 제로부터 소프트웨어 프로젝트를 설계하고 구현하는 전체적인 역량을 평가하는 새로운 벤치마크를 제안합니다. 연구진이 9개의 주요 LLM을 테스트한 결과, 단 하나의 모델도 주어진 과제를 완벽하게 완수하지 못했으며 최고 성능 모델조차 극소수의 과제에서만 95%의 테스트를 통과하는 데 그쳤습니다. 이는 현재 AI 코딩 에이전트들이 단순한 버그 수정을 넘어 복잡한 소프트웨어 아키텍처를 설계하고 구현하는 데 여전히 근본적인 한계를 지니고 있음을 시사합니다.
소프트웨어 엔지니어링 벤치마크 코딩 에이전트