메뉴
BL
r/LocalLLaMA 51일 전

소규모 오픈소스 LLM, 앤스로픽 신형 보안 모델과 동일한 취약점 발견

IMP
8/10
핵심 요약

AI 보안 스타트업 AISLE은 앤스로픽의 최신 보안 모델 'Mythos'가 발견한 제로데이 취약점들을 소규모 오픈소스 LLM으로 테스트한 결과, 훨씬 저렴한 모델들도 동일한 분석 결과를 도출할 수 있음을 입증했습니다. 이는 AI 보안 역량이 모델의 크기에 비례해 부드럽게 상승하는 것이 아니라, 보안 전문성이 시스템 내에 어떻게 구축되는지가 핵심 경쟁력임을 시사합니다. 결과적으로 고성능 폐쇄형 모델 하나가 모든 것을 해결하는 것이 아니라, 작업에 따라 최적화된 모델을 선택하는 유연한 파이프라인 구축이 중요해졌습니다.

번역된 본문

AI 사이버 보안: Mythos 이후, 톱니바퀴 같은 프론티어 작성자: Stanislav Fort 발행일: 2026년 4월 7일 왜 진정한 해자(Moat)는 모델이 아니라 '시스템'인가

TL;DR: 우리는 Anthropic Mythos가 쇼케이스로 선보인 취약점들을 소규모의 저렴한 오픈 가중치(Open-weights) 모델들을 사용해 테스트해 보았습니다. 이 모델들은 Mythos와 거의 동일한 분석 결과를 도출해 냈습니다. AI 사이버 보안 역량은 매우 톱니바퀴처럼 들쭉날쭉(jagged)합니다. 즉, 모델 크기에 따라 부드럽게 비례하여 상승하지 않으며, 진정한 경쟁력(해자)은 모델 자체가 아니라 심층적인 보안 전문성이 구축된 '시스템'에 있습니다. Mythos는 이러한 접근 방식을 검증하지만, 아직 모든 것이 결정된 것은 아닙니다.

발표 내용 2026년 4월 7일, Anthropic은 'Claude Mythos Preview'와 'Project Glasswing'을 발표했습니다. Project Glasswing은 중요 소프트웨어의 보안 취약점을 발견하고 패치하기 위해 Mythos라는 새롭고 접근이 제한된 AI 모델을 사용하기 위해 결성된 기술 기업 컨소시엄입니다. Anthropic은 오픈소스 보안 기관에 1억 달러의 사용 크레딧과 400만 달러의 직접 기부를 약속했습니다.

Anthropic 레드팀의 기술 블로그 게시물에 따르면, Mythos는 모든 주요 운영 체제와 웹 브라우저에서 수천 건의 제로데이(Zero-day) 취약점을 자율적으로 발견했습니다. 여기에는 OpenBSD의 27년 된 버그와 FFmpeg의 16년 된 버그에 대한 세부 정보도 포함되었습니다. 발견을 넘어, 해당 게시물은 고도로 정교한 익스플로잇(Exploit) 구성을 상세히 설명했습니다. Linux 커널의 다중 취약점 권한 상승 체인, 브라우저 샌드박스를 탈출하는 JIT 힙 스프레이(Heap spray), 그리고 Mythos가 자율적으로 작성한 FreeBSD 대상 원격 코드 실행(RCE) 익스플로잇 등이 그것입니다.

이것은 매우 중요한 작업이며, 우리 또한 공유하는 사명입니다. 우리는 지난 1년 동안 중요한 오픈소스 소프트웨어의 제로데이 취약점을 발견, 검증 및 패치하는 AI 시스템을 구축하고 운영해 왔습니다. Anthropic이 설명하는 종류의 결과들은 실제로 현실입니다. 하지만 우리가 테스트했을 때 발견한 것은 다음과 같았습니다.

우리는 Anthropic이 발표에서 쇼케이스로 보여준 구체적인 취약점들을 가져와 관련 코드를 격리한 뒤, 소규모의 저렴한 오픈 가중치 모델들에 입력해 보았습니다. 그 결과, 해당 모델들은 Mythos와 거의 동일한 분석을 복원해 냈습니다. 8개의 테스트 모델 모두(백만 토큰당 단 0.11달러가 드는 36억 개의 활성 파라미터를 가진 모델 포함) Mythos의 핵심 FreeBSD 익스플로잇을 탐지했습니다. 51억 개의 활성 파라미터를 가진 오픈 모델은 27년 된 OpenBSD 버그의 핵심 체인을 복원했습니다. 또한 기본 보안 추론 작업에서 소규모 오픈 모델이 주요 연구소의 대부분의 최신 프론티어 모델을 능가했습니다.

역량 순위는 작업 전반에 걸쳐 완전히 뒤바뀌었습니다. 사이버 보안 작업 전반에 걸쳐 안정적인 '최고의 모델'은 존재하지 않습니다. 역량의 프론티어는 들쭉날쭉(Jagged)합니다. 이는 '하나의 모델이 모든 것을 바꿨다'는 주장보다 더 미묘한 실상을 보여줍니다. 이 글의 나머지 부분에서는 이러한 증거를 상세히 제시합니다.

맥락: 현재 AI 사이버 보안의 위치 AISLE에서 우리는 2025년 중반부터 실제 대상을 상대로 취약점 발견 및 수정 시스템을 운영해 왔습니다. OpenSSL의 15건의 CVE(Common Vulnerabilities and Exposures, curl의 5건의 CVE, 심층 인프라, 암호화, 미들웨어 및 애플리케이션 계층에 걸친 30개 이상의 프로젝트에서 외부적으로 검증된 180건 이상의 CVE를 발견했습니다. (여기에는 25년이 넘은 버그와 CVSS 9.8 심각도를 포함하여 단일 보안 업데이트에서 발견된 12건 중 12건의 OpenSSL 취약점도 포함됩니다.)

현재 우리의 보안 분석기는 OpenSSL, curl 및 OpenClaw의 풀 리퀘스트(Pull Request)에서 실행되어 취약점이 배포되기 전에 이를 차단하고 있습니다. 우리는 이 작업 전반에 걸쳐 다양한 모델을 사용했습니다. Anthropic 모델도 그중 일부였지만, 우리 파이프라인과 가장 관련성이 높은 사이버 보안 작업에서 다른 대안들을 일관되게 능가하지는 못했습니다. 작업에 따라 가장 뛰어난 성능을 발휘하는 모델이 크게 달랐으며, 이것이 바로 우리의 요점입니다. 우리는 기본적으로 모델에 구애받지 않는(Model-agnostic) 설계를 채택하고 있습니다.

우리에게 중요한 지표는 프로젝트 유지자의 승인입니다. OpenSSL의 CTO가 "우리는 고품질의 보고서와 수정 과정 전반에 걸친 건설적인 협력에 감사드립니다"라고 말할 때, 그것이 바로 진정한 성공 신호입니다. 즉, 발견부터 승인된 패치에 이르기까지 전체 루프를 닫아 신뢰를 얻는 방식 말입니다. Project Glasswing이 2026년 4월에 발표한 사명은 우리가 2025년 중반부터 실행해 온 것입니다.

파이프라인의 분해 Mythos 발표는 AI 사이버 보안을 하나의 거대한 인지적 도약으로 묘사하지만, 실제로는 다양한 역량을 가진 모델들이 결합된 정교한 파이프라인입니다. (이후 원문 생략)

원문 보기
원문 보기 (영어)
AI Cybersecurity After Mythos: The Jagged Frontier Author Stanislav Fort Date Published April 7, 2026 Why the moat is the system, not the model TL;DR: We tested Anthropic Mythos's showcase vulnerabilities on small, cheap, open-weights models. They recovered much of the same analysis. AI cybersecurity capability is very jagged : it doesn't scale smoothly with model size, and the moat is the system into which deep security expertise is built, not the model itself. Mythos validates the approach but it does not settle it yet. The announcement On April 7, Anthropic announced Claude Mythos Preview and Project Glasswing , a consortium of technology companies formed to use their new, limited-access AI model called Mythos , to find and patch security vulnerabilities in critical software. Anthropic committed up to 100M USD in usage credits and 4M USD in direct donations to open source security organizations. The accompanying technical blog post from Anthropic's red team refers to Mythos autonomously finding thousands of zero-day vulnerabilities across every major operating system and web browser, with details including a 27-year-old bug in OpenBSD and a 16-year-old bug in FFmpeg. Beyond discovery, the post detailed exploit construction of high sophistication: multi-vulnerability privilege escalation chains in the Linux kernel, JIT heap sprays escaping browser sandboxes, and a remote code execution exploit against FreeBSD that Mythos wrote autonomously. This is important work and the mission is one we share. We've spent the past year building and operating an AI system that discovers, validates, and patches zero-day vulnerabilities in critical open source software. The kind of results Anthropic describes are real. But here is what we found when we tested: We took the specific vulnerabilities Anthropic showcases in their announcement, isolated the relevant code, and ran them through small, cheap, open-weights models. Those models recovered much of the same analysis. Eight out of eight models detected Mythos's flagship FreeBSD exploit, including one with only 3.6 billion active parameters costing $0.11 per million tokens. A 5.1B-active open model recovered the core chain of the 27-year-old OpenBSD bug. And on a basic security reasoning task, small open models outperformed most frontier models from every major lab. The capability rankings reshuffled completely across tasks. There is no stable best model across cybersecurity tasks. The capability frontier is jagged. This points to a more nuanced picture than "one model changed everything." The rest of this post presents the evidence in detail. Context: where AI cybersecurity already stands At AISLE , we've been running a discovery and remediation system against live targets since mid-2025: 15 CVEs in OpenSSL (including 12 out of 12 in a single security release , with bugs dating back 25+ years and a CVSS 9.8 Critical), 5 CVEs in curl, over 180 externally validated CVEs across 30+ projects spanning deep infrastructure, cryptography, middleware, and the application layer. Our security analyzer now runs on OpenSSL, curl and OpenClaw pull requests, catching vulnerabilities before they ship. We used a range of models throughout this work. Anthropic's were among them, but they did not consistently outperform alternatives on the cybersecurity tasks most relevant to our pipeline. The strongest performer varies widely by task, which is precisely the point. We are model-agnostic by design. The metric that matters to us is maintainer acceptance. When the OpenSSL CTO says "We appreciate the high quality of the reports and their constructive collaboration throughout the remediation," that's the signal: closing the full loop from discovery through accepted patch in a way that earns trust. The mission that Project Glasswing announced in April 2026 is one we've been executing since mid-2025. Decomposing the pipeline The Mythos announcement presents AI cybersecurity as a single, integrated capability: “point” Mythos at a codebase and it finds and exploits vulnerabilities. In practice, however, AI cybersecurity is a modular pipeline of very different tasks, each with vastly different scaling properties: Broad-spectrum scanning : navigating a large codebase (often hundreds of thousands of files) to identify which functions are worth examining Vulnerability detection : given the right code, spotting what's wrong Triage and verification : distinguishing true positives from false positives, assessing severity and exploitability Patch generation : fixing the vulnerability correctly (and potentially also) Exploit construction : turning a vulnerability into a working attack (ROP chains, privilege escalation, sandbox escapes) The Anthropic announcement blends these into a single narrative, which can create the impression that all of them require frontier-scale intelligence. Our practical experience on the frontier of AI security suggests that the reality is very uneven. We view the production function for AI cybersecurity as having multiple inputs: intelligence per token, tokens per dollar, tokens per second, and the security expertise embedded in the scaffold and organization that orchestrates all of it. Anthropic is undoubtedly maximizing the first input with Mythos. AISLE's experience building and operating a production system suggests the others matter just as much, and in some cases more. The bottom line, before the evidence We'll present the detailed experiments below, but let us state the conclusion upfront so the evidence has a frame: the moat in AI cybersecurity is the system, not the model. Anthropic's own scaffold is described in their technical post: launch a container, prompt the model to scan files, let it hypothesize and test, use ASan as a crash oracle, rank files by attack surface, run validation. That is very close to the kind of system we and others in the field have built, and we've demonstrated it with multiple model families, achieving our best results with models that are not Anthropic's. The value lies in the targeting, the iterative deepening, the validation, the triage, the maintainer trust. The public evidence so far does not suggest that these workflows must be coupled to one specific frontier model. There is a practical consequence of jaggedness. Because small, cheap, fast models are sufficient for much of the detection work, you don't need to judiciously deploy one expensive model and hope it looks in the right places. You can deploy cheap models broadly , scanning everything, and compensate for lower per-token intelligence with sheer coverage and lower cost-per-token. A thousand adequate detectives searching everywhere will find more bugs than one brilliant detective who has to guess where to look. The small models already provide sufficient uplift that, wrapped in expert orchestration, they produce results that the ecosystem takes seriously. This changes the economics of the entire defensive pipeline. Anthropic is proving that the category is real. The open question is what it takes to make it work in production, at scale, with maintainer trust. That's the problem we and others in the field are solving. The evidence: cybersecurity capability is surprisingly jagged To probe where capability actually resides, we ran a series of experiments using small, cheap, and in some cases open-weights models on tasks directly relevant to the Mythos announcement. These are not end-to-end autonomous repo-scale discovery tests. They are narrower probes: once the relevant code path and snippet are isolated, as a well-designed discovery scaffold would do, how much of the public Mythos showcase analysis can current cheap or open models recover? The results suggest that cybersecurity capability is jagged : it doesn't scale smoothly with model size, model generation, or price. We've published the full transcripts so others can inspect