#N-Day-Bench

Hacker News • 106일 전

IMP 7

N-Day-Bench: LLM의 실제 취약점 탐지 능력 평가

Winfunc Research는 최신 LLM들이 실제 코드에서 보안 취약점을 얼마나 잘 발견하는지 측정하는 'N-Day-Bench' 벤치마크를 공개했습니다. 평가 결과 OpenAI의 GPT-5.4가 83.93점으로 1위를 차지했으며, GLM-5.1과 Claude Opus 4.6, Kimi K2.5 등이 바로 뒤를 이었습니다. 해당 벤치마크는 매달 테스트 케이스와 모델을 최신으로 업데이트하며 모든 평가 과정을 공개하여 실제 사이버 보안 역량을 투명하게 검증합니다.

보안 취약점 탐지 벤치마크 LLM 평가