메뉴
HN
Hacker News 53일 전

클로드 미토스 프리뷰 사이버보안 역량 평가

IMP
9/10
핵심 요약

앤스로픽은 새로운 범용 언어 모델인 '클로드 미토스 프리뷰(Claude Mythos Preview)'가 제로데이 취약점 탐지 및 악용에 있어 혁신적인 수준의 사이버보안 역량을 갖췄다고 평가했습니다. 이 모델은 전문 지식이 없는 사용자의 지시만으로도 주요 운영체제와 웹 브라우저의 복잡한 취약점을 자율적으로 찾아내고 공격 코드를 작성할 수 있어, 보안 위협의 패러다임을 바꾸는 중대한 전환점으로 평가받습니다. 이에 앤스로픽은 전 세계 주요 소프트웨어를 보호하기 위한 '프로젝트 글래스윙(Project Glasswing)'을 출범시키고 업계 전반의 선제적 방어 조치를 촉구했습니다.

번역된 본문

출처: red.anthropic.com 클로드 미토스 프리뷰의 사이버보안 역량 평가 2026년 4월 7일

Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore, Milad Nasr, Vinay Prabhashankar, Winnie Xiao Evyatar Ben Asher, Hakeem Angulu, Jackie Bow, Keir Bradwell, Ben Buchanan, Daniel Freeman, Alex Gaynor, Xinyang Ge, Logan Graham, Hasnain Lakhani, Matt McNiece, Adnan Pirzada, Sophia Porter, Andreas Terzis, Kevin Troy

오늘 저희는 새로운 범용 언어 모델인 '클로드 미토스 프리뷰(Claude Mythos Preview)'를 발표했습니다. 이 모델은 전반적으로 뛰어난 성능을 보여주지만, 특히 컴퓨터 보안 작업에서 눈에 띄는 능력을 발휘합니다. 이에 발맞춰 저희는 미토스 프리뷰를 활용해 전 세계에서 가장 중요한 소프트웨어를 보호하고, 사이버 공격자보다 한발 앞서기 위해 우리 모두가 채택해야 할 실무 방안을 업계에 준비시키기 위한 노력인 '프로젝트 글래스윙(Project Glasswing)'을 시작했습니다.

이 블로그 게시물은 저희가 이 모델을 어떻게 테스트했고 지난 한 달 동안 무엇을 발견했는지 정확히 이해하고자 하는 연구원 및 실무자들에게 기술적인 세부 사항을 제공합니다. 저희는 이 글이 왜 우리가 이번을 보안의 중대한 분수령으로 보는지, 그리고 왜 전 세계 사이버 방어력을 강화하기 위한 공동의 노력을 시작하기로 결정했는지 보여주기를 바랍니다.

저희는 미토스 프리뷰의 전반적인 역량에 대한 인상과 이 모델 및 향후 유사한 모델들이 보안 산업에 어떤 영향을 미칠지에 대한 기대를 먼저 설명합니다. 그런 다음 이 모델을 어떻게 상세하게 평가했고 테스트 중 어떤 결과를 얻었는지 논의합니다. 다음으로 실제 오픈소스 코드베이스에서 제로데이(즉, 아직 발견되지 않은) 취약점을 찾고 악용하는 미토스 프리뷰의 능력을 살펴봅니다. 이후 미토스 프리뷰가 클로즈드 소스 소프트웨어에 대한 익스플로잇을 리버스 엔지니어링하고, N-데이(즉, 알려져 있지만 아직 널리 패치되지 않은) 취약점을 익스플로잇으로 변환할 수 있음이 어떻게 입증되었는지 논의합니다.

아래에서 논의하듯, 저희가 여기서 보고할 수 있는 내용에는 제한이 있습니다. 저희가 발견한 취약점의 99% 이상이 아직 패치되지 않았기 때문에 (저희의 공동 취약점 공개 프로세스에 따라) 그에 대한 세부 정보를 공개하는 것은 무책임한 일입니다. 그러나 저희가 논의할 수 있는 단 1%의 버그만으로도 차세대 모델의 사이버보안 역량에서 상당한 도약을 이루었음을 명확히 보여주며, 이는 업계 전반에 걸친 실질적이고 공동의 방어 조치가 필요함을 시사합니다. 게시물은 오늘날 사이버 방어자들을 위한 조언과 이에 대응하기 위한 긴급한 행동을 업계에 촉구하는 내용으로 마무리됩니다.

클로드 미토스 프리뷰가 사이버보안에 미치는 의미 테스트 과정에서 저희는 미토스 프리뷰가 사용자의 지시를 받으면 모든 주요 운영체제와 모든 주요 웹 브라우저에서 제로데이 취약점을 식별하고 이를 악용할 수 있다는 것을 발견했습니다. 이 모델이 찾아내는 취약점은 종종 미묘하거나 탐지하기 어려운 것들입니다. 그중 다수는 10년 또는 20년 된 것들이며, 지금까지 발견한 것 중 가장 오래된 것은 주로 보안으로 유명한 운영체제인 OpenBSD에서 이미 패치된 27년 된 버그였습니다.

이 모델이 구성하는 익스플로잇은 단순히 일반적인 스택 스매싱(stack-smashing) 공격에 그치지 않습니다 (비록 그러한 것들도 가능하지만). 한 사례에서 미토스 프리뷰는 4개의 취약점을 연결하는(chaining) 웹 브라우저 익스플로잇을 작성했으며, 렌더러와 운영체제 샌드박스 모두를 탈출하는 복잡한 JIT 힙 스프레이(heap spray)를 구현했습니다. 또한 미묘한 레이스 컨디션(race condition)과 KASLR 바이패스를 악용하여 Linux 및 기타 운영체제에서 자율적으로 로컬 권한 상승 익스플로잇을 획득했습니다. 뿐만 아니라 여러 패킷에 걸쳐 20개의 가젯(gadget)으로 구성된 ROP 체인을 분할하여, 인증되지 않은 사용자에게 전체 루트(root) 권한을 부여하는 FreeBSD NFS 서버의 원격 코드 실행 익스플로잇을 자율적으로 작성했습니다.

비전문가 역시 미토스 프리뷰를 활용하여 정교한 취약점을 찾고 악용할 수 있습니다. 공식적인 보안 교육을 받지 않은 앤스로픽의 엔지니어들이 미토스 프리뷰에게 하룻밤 동안 원격 코드 실행 취약점을 찾아달라고 요청한 후, 다음 날 아침 완벽하게 작동하는 익스플로잇을 발견했습니다. 다른 경우에는 연구원들이 스캐폴드(scaffold)를 개발하는 등 다양한 환경에서 모델의 자율성을 테스트했습니다.

원문 보기
원문 보기 (영어)
red .anthropic.com Assessing Claude Mythos Preview’s cybersecurity capabilities April 7, 2026 Nicholas Carlini, Newton Cheng, Keane Lucas, Michael Moore, Milad Nasr, Vinay Prabhushankar, Winnie Xiao Evyatar Ben Asher, Hakeem Angulu, Jackie Bow, Keir Bradwell, Ben Buchanan, Daniel Freeman, Alex Gaynor, Xinyang Ge, Logan Graham, Hasnain Lakhani, Matt McNiece, Adnan Pirzada, Sophia Porter, Andreas Terzis, Kevin Troy Earlier today we announced Claude Mythos Preview , a new general-purpose language model. This model performs strongly across the board, but it is strikingly capable at computer security tasks. In response, we have launched Project Glasswing, an effort to use Mythos Preview to help secure the world’s most critical software, and to prepare the industry for the practices we all will need to adopt to keep ahead of cyberattackers. This blog post provides technical details for researchers and practitioners who want to understand exactly how we have been testing this model, and what we have found over the past month. We hope this will show why we view this as a watershed moment for security, and why we have chosen to begin a coordinated effort to reinforce the world’s cyber defenses. We begin with our overall impressions of Mythos Preview’s capabilities, and how we expect that this model, and future ones like it, will affect the security industry. Then, we discuss how we evaluated this model in more detail, and what it achieved during our testing. We then look at Mythos Preview’s ability to find and exploit zero-day (that is, undiscovered) vulnerabilities in real open source codebases. After that we discuss how Mythos Preview has proven capable of reverse-engineering exploits on closed-source software, and turning N-day (that is, known but not yet widely patched) vulnerabilities into exploits. As we discuss below, we’re limited in what we can report here. Over 99% of the vulnerabilities we’ve found have not yet been patched, so it would be irresponsible for us to disclose details about them (per our coordinated vulnerability disclosure process). Yet even the 1% of bugs we are able to discuss give a clear picture of a substantial leap in what we believe to be the next generation of models’ cybersecurity capabilities—one that warrants substantial coordinated defensive action across the industry. We conclude our post with advice for cyber defenders today, and a call for the industry to begin taking urgent action in response. The significance of Claude Mythos Preview for cybersecurity During our testing, we found that Mythos Preview is capable of identifying and then exploiting zero-day vulnerabilities in every major operating system and every major web browser when directed by a user to do so. The vulnerabilities it finds are often subtle or difficult to detect. Many of them are ten or twenty years old, with the oldest we have found so far being a now-patched 27-year-old bug in OpenBSD—an operating system known primarily for its security. The exploits it constructs are not just run-of-the-mill stack-smashing exploits (though as we’ll show, it can do those too). In one case, Mythos Preview wrote a web browser exploit that chained together four vulnerabilities, writing a complex JIT heap spray that escaped both renderer and OS sandboxes. It autonomously obtained local privilege escalation exploits on Linux and other operating systems by exploiting subtle race conditions and KASLR-bypasses. And it autonomously wrote a remote code execution exploit on FreeBSD’s NFS server that granted full root access to unauthenticated users by splitting a 20-gadget ROP chain over multiple packets. Non-experts can also leverage Mythos Preview to find and exploit sophisticated vulnerabilities. Engineers at Anthropic with no formal security training have asked Mythos Preview to find remote code execution vulnerabilities overnight, and woken up the following morning to a complete, working exploit. In other cases, we’ve had researchers develop scaffolds that allow Mythos Preview to turn vulnerabilities into exploits without any human intervention. These capabilities have emerged very quickly. Last month, we wrote that “Opus 4.6 is currently far better at identifying and fixing vulnerabilities than at exploiting them.” Our internal evaluations showed that Opus 4.6 generally had a near-0% success rate at autonomous exploit development. But Mythos Preview is in a different league. For example, Opus 4.6 turned the vulnerabilities it had found in Mozilla’s Firefox 147 JavaScript engine—all patched in Firefox 148—into JavaScript shell exploits only two times out of several hundred attempts. We re-ran this experiment as a benchmark for Mythos Preview, which developed working exploits 181 times, and achieved register control on 29 more. [1] These same capabilities are observable in our own internal benchmarks. We regularly run our models against roughly a thousand open source repositories from the OSS-Fuzz corpus , and grade the worst crash they can produce on a five-tier ladder of increasing severity, ranging from basic crashes (tier 1) to complete control flow hijack (tier 5). With one run on each of roughly 7000 entry points into these repositories, Sonnet 4.6 and Opus 4.6 reached tier 1 in between 150 and 175 cases, and tier 2 about 100 times, but each achieved only a single crash at tier 3. In contrast, Mythos Preview achieved 595 crashes at tiers 1 and 2, added a handful of crashes at tiers 3 and 4, and achieved full control flow hijack on ten separate, fully patched targets (tier 5). We did not explicitly train Mythos Preview to have these capabilities. Rather, they emerged as a downstream consequence of general improvements in code, reasoning, and autonomy. The same improvements that make the model substantially more effective at patching vulnerabilities also make it substantially more effective at exploiting them. Most security tooling has historically benefitted defenders more than attackers. When the first software fuzzers were deployed at large scale, there were concerns they might enable attackers to identify vulnerabilities at an increased rate. And they did. But modern fuzzers like AFL are now a critical component of the security ecosystem: projects like OSS-Fuzz dedicate significant resources to help secure key open source software. We believe the same will hold true here too—eventually. Once the security landscape has reached a new equilibrium, we believe that powerful language models will benefit defenders more than attackers, increasing the overall security of the software ecosystem. The advantage will belong to the side that can get the most out of these tools. In the short term, this could be attackers, if frontier labs aren’t careful about how they release these models. In the long term, we expect it will be defenders who will more efficiently direct resources and use these models to fix bugs before new code ever ships. But the transitional period may be tumultuous regardless. By releasing this model initially to a limited group of critical industry partners and open source developers with Project Glasswing, we aim to enable defenders to begin securing the most important systems before models with similar capabilities become broadly available. Evaluating Claude Mythos Preview’s ability to find zero-days We have historically relied on a combination of internal and external benchmarks, like those mentioned above, to track our models’ vulnerability discovery and exploitation capabilities. However, Mythos Preview has improved to the extent that it mostly saturates these benchmarks. Therefore, we’ve turned our focus to novel real-world security tasks, in large part because metrics that measure replications of previously known vulnerabilities can make it difficult to distinguish novel capabilities from cases where the model simply remembered the solution. [2] Zero-day vulnerabilities—bugs that were not previously known to exist—allow us to address this limitation.