Hacker News • 106일 전

N-Day-Bench: LLM의 실제 취약점 탐지 능력 평가

IMP

7/10

핵심 요약

Winfunc Research는 최신 LLM들이 실제 코드에서 보안 취약점을 얼마나 잘 발견하는지 측정하는 'N-Day-Bench' 벤치마크를 공개했습니다. 평가 결과 OpenAI의 GPT-5.4가 83.93점으로 1위를 차지했으며, GLM-5.1과 Claude Opus 4.6, Kimi K2.5 등이 바로 뒤를 이었습니다. 해당 벤치마크는 매달 테스트 케이스와 모델을 최신으로 업데이트하며 모든 평가 과정을 공개하여 실제 사이버 보안 역량을 투명하게 검증합니다.

번역된 본문

N-Day-Bench는 최신 언어 모델들이 각 모델의 지식 기준일(Knowledge cut-off) 이후에 공개된 실제 취약점, 즉 "N-Days"를 찾아내는 능력을 측정합니다. 모든 모델은 보상 해킹(Reward hacking)의 여지가 없도록 동일한 하네스(Harness)와 동일한 컨텍스트(Context)를 제공받습니다. 이 벤치마크는 실제 사이버 보안 역량, 특히 대규모 언어 모델(LLM)의 "취약점 발견" 능력을 측정하기 위해 존재합니다. 또한 적응형(Adaptive)으로 설계되어 매달 테스트 케이스가 업데이트되고 모델 세트가 최신 버전과 체크포인트로 업그레이드됩니다. 모든 실행 추적(Trace)은 공개적으로 열람할 수 있습니다. Winfunc Research 프로젝트

요약 최신 벤치마크 실행 개요 상태: 완료 (completed) 스캔된 보안 권고문(Advisories): 1,000건 승인된 테스트 케이스: 47건 건너뛴 테스트 케이스: 953건 평균 점수

전체 리더보드

openai/gpt-5.4: 83.93점
z-ai/glm-5.1: 80.13점
anthropic/claude-opus-4.6: 79.95점
moonshotai/kimi-k2.5: 77.18점
google/gemini-3.1-pro-preview: 68.50점

취약점 발견(Finder) 모델 전체 보기 모델 | 평균 점수 | 제출 횟수 | 평균 발견 건수 openai/gpt-5.4 | 83.93 | 44 | 1.07 z-ai/glm-5.1 | 80.13 | 44 | 1.23 anthropic/claude-opus-4.6 | 79.95 | 43 | 1.16 moonshotai/kimi-k2.5 | 77.18 | 37 | 1.05 google/gemini-3.1-pro-preview | 68.50 | 44 | 0.91

최신 실행 추적(Traces) 전체 보기 judge-run trace_32193f46de30408c9b2e07c10cb77973: 2026년 4월 13일 오후 8:52 finder-run trace_d0f96be9b726419ba37a391878d89902: 2026년 4월 13일 오후 8:45 judge-run trace_ad22023d5c654d50a2c93a0d4d685fe2: 2026년 4월 13일 오후 8:37 judge-run trace_44a6ff17f42f4bfc942bc4341ec34827: 2026년 4월 13일 오후 8:33 judge-run trace_26dba0da5e6a4d5389c50ad642243bdf: 2026년 4월 13일 오후 8:33 judge-run trace_c1d765f31bfb493c8902cc2284c403bd: 2026년 4월 13일 오후 8:32 judge-run trace_cfe310bab72f4171a3ded2f379d02576: 2026년 4월 13일 오후 8:32 judge-run trace_a0775cae04054609ae43229d8e9137ee: 2026년 4월 13일 오후 8:31

실행 메타데이터(Run metadata) 생성일: 2026년 4월 13일 오후 5:03 시작일: 2026년 4월 13일 오후 5:03 완료일: 2026년 4월 13일 오후 8:53 실패: —

원문 보기

원문 보기 (영어)

N-Day-Bench N-Day-Bench measures the capability of frontier language models to find real-world vulnerabilities or "N-Days" disclosed post their respective knowledge cut-off date. All models are given the same harness and the same context with no leeway for reward hacking. This benchmark exists to measure real cyber security capabilities, specifically "vulnerability discovery" of large language models or LLMs. This benchmark is adaptive: the test cases are updated on a monthly cadence and the model set is upgraded to their latest version and checkpoint. All traces are publicly browsable. A project from Winfunc Research Summary Latest benchmark run overview Status completed Advisories scanned 1000 Accepted cases 47 Skipped 953 Average score Full leaderboard 1 openai/gpt-5.4 83.93 2 z-ai/glm-5.1 80.13 3 anthropic/claude-opus-4.6 79.95 4 moonshotai/kimi-k2.5 77.18 5 google/gemini-3.1-pro-preview 68.50 Finder models View all Model Avg score Submissions Avg findings openai/gpt-5.4 83.93 44 1.07 z-ai/glm-5.1 80.13 44 1.23 anthropic/claude-opus-4.6 79.95 43 1.16 moonshotai/kimi-k2.5 77.18 37 1.05 google/gemini-3.1-pro-preview 68.50 44 0.91 Recent traces View all judge-run trace_32193f46de30408c9b2e07c10cb77973 Apr 13, 2026, 8:52 PM finder-run trace_d0f96be9b726419ba37a391878d89902 Apr 13, 2026, 8:45 PM judge-run trace_ad22023d5c654d50a2c93a0d4d685fe2 Apr 13, 2026, 8:37 PM judge-run trace_44a6ff17f42f4bfc942bc4341ec34827 Apr 13, 2026, 8:33 PM judge-run trace_26dba0da5e6a4d5389c50ad642243bdf Apr 13, 2026, 8:33 PM judge-run trace_c1d765f31bfb493c8902cc2284c403bd Apr 13, 2026, 8:32 PM judge-run trace_cfe310bab72f4171a3ded2f379d02576 Apr 13, 2026, 8:32 PM judge-run trace_a0775cae04054609ae43229d8e9137ee Apr 13, 2026, 8:31 PM Run metadata Created Apr 13, 2026, 5:03 PM Started Apr 13, 2026, 5:03 PM Completed Apr 13, 2026, 8:53 PM Failure —

보안 취약점 탐지 벤치마크 LLM 평가 사이버 보안 N-Day-Bench