소규모 오픈소스 LLM, 앤스로픽 신형 보안 모델과 동일한 취약점 발견
AI 보안 스타트업 AISLE은 앤스로픽의 최신 보안 모델 'Mythos'가 발견한 제로데이 취약점들을 소규모 오픈소스 LLM으로 테스트한 결과, 훨씬 저렴한 모델들도 동일한 분석 결과를 도출할 수 있음을 입증했습니다. 이는 AI 보안 역량이 모델의 크기에 비례해 부드럽게 상승하는 것이 아니라, 보안 전문성이 시스템 내에 어떻게 구축되는지가 핵심 경쟁력임을 시사합니다. 결과적으로 고성능 폐쇄형 모델 하나가 모든 것을 해결하는 것이 아니라, 작업에 따라 최적화된 모델을 선택하는 유연한 파이프라인 구축이 중요해졌습니다.
AI 사이버 보안: Mythos 이후, 톱니바퀴 같은 프론티어 작성자: Stanislav Fort 발행일: 2026년 4월 7일 왜 진정한 해자(Moat)는 모델이 아니라 '시스템'인가
TL;DR: 우리는 Anthropic Mythos가 쇼케이스로 선보인 취약점들을 소규모의 저렴한 오픈 가중치(Open-weights) 모델들을 사용해 테스트해 보았습니다. 이 모델들은 Mythos와 거의 동일한 분석 결과를 도출해 냈습니다. AI 사이버 보안 역량은 매우 톱니바퀴처럼 들쭉날쭉(jagged)합니다. 즉, 모델 크기에 따라 부드럽게 비례하여 상승하지 않으며, 진정한 경쟁력(해자)은 모델 자체가 아니라 심층적인 보안 전문성이 구축된 '시스템'에 있습니다. Mythos는 이러한 접근 방식을 검증하지만, 아직 모든 것이 결정된 것은 아닙니다.
발표 내용 2026년 4월 7일, Anthropic은 'Claude Mythos Preview'와 'Project Glasswing'을 발표했습니다. Project Glasswing은 중요 소프트웨어의 보안 취약점을 발견하고 패치하기 위해 Mythos라는 새롭고 접근이 제한된 AI 모델을 사용하기 위해 결성된 기술 기업 컨소시엄입니다. Anthropic은 오픈소스 보안 기관에 1억 달러의 사용 크레딧과 400만 달러의 직접 기부를 약속했습니다.
Anthropic 레드팀의 기술 블로그 게시물에 따르면, Mythos는 모든 주요 운영 체제와 웹 브라우저에서 수천 건의 제로데이(Zero-day) 취약점을 자율적으로 발견했습니다. 여기에는 OpenBSD의 27년 된 버그와 FFmpeg의 16년 된 버그에 대한 세부 정보도 포함되었습니다. 발견을 넘어, 해당 게시물은 고도로 정교한 익스플로잇(Exploit) 구성을 상세히 설명했습니다. Linux 커널의 다중 취약점 권한 상승 체인, 브라우저 샌드박스를 탈출하는 JIT 힙 스프레이(Heap spray), 그리고 Mythos가 자율적으로 작성한 FreeBSD 대상 원격 코드 실행(RCE) 익스플로잇 등이 그것입니다.
이것은 매우 중요한 작업이며, 우리 또한 공유하는 사명입니다. 우리는 지난 1년 동안 중요한 오픈소스 소프트웨어의 제로데이 취약점을 발견, 검증 및 패치하는 AI 시스템을 구축하고 운영해 왔습니다. Anthropic이 설명하는 종류의 결과들은 실제로 현실입니다. 하지만 우리가 테스트했을 때 발견한 것은 다음과 같았습니다.
우리는 Anthropic이 발표에서 쇼케이스로 보여준 구체적인 취약점들을 가져와 관련 코드를 격리한 뒤, 소규모의 저렴한 오픈 가중치 모델들에 입력해 보았습니다. 그 결과, 해당 모델들은 Mythos와 거의 동일한 분석을 복원해 냈습니다. 8개의 테스트 모델 모두(백만 토큰당 단 0.11달러가 드는 36억 개의 활성 파라미터를 가진 모델 포함) Mythos의 핵심 FreeBSD 익스플로잇을 탐지했습니다. 51억 개의 활성 파라미터를 가진 오픈 모델은 27년 된 OpenBSD 버그의 핵심 체인을 복원했습니다. 또한 기본 보안 추론 작업에서 소규모 오픈 모델이 주요 연구소의 대부분의 최신 프론티어 모델을 능가했습니다.
역량 순위는 작업 전반에 걸쳐 완전히 뒤바뀌었습니다. 사이버 보안 작업 전반에 걸쳐 안정적인 '최고의 모델'은 존재하지 않습니다. 역량의 프론티어는 들쭉날쭉(Jagged)합니다. 이는 '하나의 모델이 모든 것을 바꿨다'는 주장보다 더 미묘한 실상을 보여줍니다. 이 글의 나머지 부분에서는 이러한 증거를 상세히 제시합니다.
맥락: 현재 AI 사이버 보안의 위치 AISLE에서 우리는 2025년 중반부터 실제 대상을 상대로 취약점 발견 및 수정 시스템을 운영해 왔습니다. OpenSSL의 15건의 CVE(Common Vulnerabilities and Exposures, curl의 5건의 CVE, 심층 인프라, 암호화, 미들웨어 및 애플리케이션 계층에 걸친 30개 이상의 프로젝트에서 외부적으로 검증된 180건 이상의 CVE를 발견했습니다. (여기에는 25년이 넘은 버그와 CVSS 9.8 심각도를 포함하여 단일 보안 업데이트에서 발견된 12건 중 12건의 OpenSSL 취약점도 포함됩니다.)
현재 우리의 보안 분석기는 OpenSSL, curl 및 OpenClaw의 풀 리퀘스트(Pull Request)에서 실행되어 취약점이 배포되기 전에 이를 차단하고 있습니다. 우리는 이 작업 전반에 걸쳐 다양한 모델을 사용했습니다. Anthropic 모델도 그중 일부였지만, 우리 파이프라인과 가장 관련성이 높은 사이버 보안 작업에서 다른 대안들을 일관되게 능가하지는 못했습니다. 작업에 따라 가장 뛰어난 성능을 발휘하는 모델이 크게 달랐으며, 이것이 바로 우리의 요점입니다. 우리는 기본적으로 모델에 구애받지 않는(Model-agnostic) 설계를 채택하고 있습니다.
우리에게 중요한 지표는 프로젝트 유지자의 승인입니다. OpenSSL의 CTO가 "우리는 고품질의 보고서와 수정 과정 전반에 걸친 건설적인 협력에 감사드립니다"라고 말할 때, 그것이 바로 진정한 성공 신호입니다. 즉, 발견부터 승인된 패치에 이르기까지 전체 루프를 닫아 신뢰를 얻는 방식 말입니다. Project Glasswing이 2026년 4월에 발표한 사명은 우리가 2025년 중반부터 실행해 온 것입니다.
파이프라인의 분해 Mythos 발표는 AI 사이버 보안을 하나의 거대한 인지적 도약으로 묘사하지만, 실제로는 다양한 역량을 가진 모델들이 결합된 정교한 파이프라인입니다. (이후 원문 생략)