N-Day-Bench: LLM의 실제 취약점 탐지 능력 평가
Winfunc Research는 최신 LLM들이 실제 코드에서 보안 취약점을 얼마나 잘 발견하는지 측정하는 'N-Day-Bench' 벤치마크를 공개했습니다. 평가 결과 OpenAI의 GPT-5.4가 83.93점으로 1위를 차지했으며, GLM-5.1과 Claude Opus 4.6, Kimi K2.5 등이 바로 뒤를 이었습니다. 해당 벤치마크는 매달 테스트 케이스와 모델을 최신으로 업데이트하며 모든 평가 과정을 공개하여 실제 사이버 보안 역량을 투명하게 검증합니다.
N-Day-Bench는 최신 언어 모델들이 각 모델의 지식 기준일(Knowledge cut-off) 이후에 공개된 실제 취약점, 즉 "N-Days"를 찾아내는 능력을 측정합니다. 모든 모델은 보상 해킹(Reward hacking)의 여지가 없도록 동일한 하네스(Harness)와 동일한 컨텍스트(Context)를 제공받습니다. 이 벤치마크는 실제 사이버 보안 역량, 특히 대규모 언어 모델(LLM)의 "취약점 발견" 능력을 측정하기 위해 존재합니다. 또한 적응형(Adaptive)으로 설계되어 매달 테스트 케이스가 업데이트되고 모델 세트가 최신 버전과 체크포인트로 업그레이드됩니다. 모든 실행 추적(Trace)은 공개적으로 열람할 수 있습니다. Winfunc Research 프로젝트
요약 최신 벤치마크 실행 개요 상태: 완료 (completed) 스캔된 보안 권고문(Advisories): 1,000건 승인된 테스트 케이스: 47건 건너뛴 테스트 케이스: 953건 평균 점수
전체 리더보드
- openai/gpt-5.4: 83.93점
- z-ai/glm-5.1: 80.13점
- anthropic/claude-opus-4.6: 79.95점
- moonshotai/kimi-k2.5: 77.18점
- google/gemini-3.1-pro-preview: 68.50점
취약점 발견(Finder) 모델 전체 보기 모델 | 평균 점수 | 제출 횟수 | 평균 발견 건수 openai/gpt-5.4 | 83.93 | 44 | 1.07 z-ai/glm-5.1 | 80.13 | 44 | 1.23 anthropic/claude-opus-4.6 | 79.95 | 43 | 1.16 moonshotai/kimi-k2.5 | 77.18 | 37 | 1.05 google/gemini-3.1-pro-preview | 68.50 | 44 | 0.91
최신 실행 추적(Traces) 전체 보기 judge-run trace_32193f46de30408c9b2e07c10cb77973: 2026년 4월 13일 오후 8:52 finder-run trace_d0f96be9b726419ba37a391878d89902: 2026년 4월 13일 오후 8:45 judge-run trace_ad22023d5c654d50a2c93a0d4d685fe2: 2026년 4월 13일 오후 8:37 judge-run trace_44a6ff17f42f4bfc942bc4341ec34827: 2026년 4월 13일 오후 8:33 judge-run trace_26dba0da5e6a4d5389c50ad642243bdf: 2026년 4월 13일 오후 8:33 judge-run trace_c1d765f31bfb493c8902cc2284c403bd: 2026년 4월 13일 오후 8:32 judge-run trace_cfe310bab72f4171a3ded2f379d02576: 2026년 4월 13일 오후 8:32 judge-run trace_a0775cae04054609ae43229d8e9137ee: 2026년 4월 13일 오후 8:31
실행 메타데이터(Run metadata) 생성일: 2026년 4월 13일 오후 5:03 시작일: 2026년 4월 13일 오후 5:03 완료일: 2026년 4월 13일 오후 8:53 실패: —