메뉴
BL
The Decoder 21일 전

클로드 미토스 측정 한계 도달, 자율적 AI 공격 경고

IMP
9/10
핵심 요약

AI 평가기관 METR은 최신 모델인 클로드 미토스(Claude Mythos)의 성능이 기존 테스트 방법론의 한계를 초과하여 제대로 된 측정이 불가능해졌다고 밝혔습니다. 사이버 보안 기업 팔로알토네트웍스(Palo Alto Networks)는 해당 프론티어 AI 모델들이 스스로 소프트웨어 취약점을 파악하고 연쇄적인 공격 경로를 구성하는 자율적 공격자로 변모하고 있다고 경고했습니다. 이는 보안 평가 방법론이 AI 모델의 발전 속도를 따라가지 못하는 심각한 보안 위협을 시사합니다.

번역된 본문

평가 기관 METR은 클로드 미토스(Claude Mythos)의 능력을 측정하는 과정에서 자체 테스트 방법론의 한계에 부딪혔다고 밝혔다. 이와 동시에 팔로알토네트웍스(Palo Alto Networks)는 미토스와 같은 프론티어 모델(Frontier models)이 사이버 보안 환경을 근본적으로 변화시키고 있다고 경고했다.

METR의 테스트 프레임워크가 미토스를 따라가지 못하는 이유

AI 리스크 평가를 전문으로 하는 기관 METR은 2026년 3월, 제한된 시간 동안 클로드 미토스 프리뷰(Claude Mythos Preview)의 초기 버전을 평가했다. 이 조직은 이 모델의 50% 시간 수준(time horizon)이 최소 16시간이며, 95% 신뢰 구간은 8.5시간에서 55시간 사이일 것으로 추정했다. 이 지표는 인간이 특정 시간이 걸려 완료할 작업을 모델이 50%의 확률로 완수할 수 있는 작업의 길이를 의미한다. METR은 작업 길이의 다양한 기준점을 사용하는데, 예를 들어 분류기 학습(약 45분) 또는 적대적으로 강건한 이미지 모델(adversarially robust image model) 학습(약 4시간) 등이 있다.

METR에 따르면, 미토스의 이 수치는 "새로운 작업 없이 우리가 측정할 수 있는 범위의 상한선"에 해당한다. 테스트 모음(test suite)에 포함된 228개의 작업 중 단 5개만이 16시간 이상으로 분류된다. 이로 인해 이 범위에서의 측정은 "불안정하며 작업 구성이 더 다양한 범위보다 의미가 덜하다"고 밝혔다. 따라서 METR은 이 임계값을 넘는 모델에 대해서는 정확한 추정치를 제공하지 않는다.

이 조직은 기존 테스트 모음이 "현재 공개적으로 알려진 최고 수준의 모델보다 훨씬 더 뛰어난 모델을 여전히 구별할 수는 있다"고 지적했다. 하지만 이 범위에서의 측정은 정확한 정량적 비교나 외삽(extrapolation)을 하기에는 충분히 견고하지 않다. METR은 더 긴 작업을 포함한 업데이트된 방법을 개발 중이지만, 아직 진행 단계에 있다. 진짜 보안 위험은 평가 방법이 모델 자체의 발전 속도보다 더 느리게 성장하고 있다는 데 있을 수 있다.

팔로알토네트웍스, 최신 프론티어 LLM을 "능력의 획기적 전환점"이라고 평가

사이버 보안 기업 팔로알토네트웍스는 보안 관점에서 클로드 미토스와 같은 프론티어 모델의 리스크를 평가했다. 이 회사는 최근 미토스, 오픈AI의 GPT-5.5-Cyber, 클로드 오퍼스 4.7(Claude Opus 4.7)을 포함하여 "최신 프론티어 AI 모델에 대한 초기 무제한 액세스"를 가졌다고 밝혔다.

팔로알토네트웍스는 관찰한 바를 "능력의 획기적 전환점(a step-change in capability)"이라고 설명했다. 이 모델들은 "소프트웨어 취약점에 대한 직관적인 이해"를 보여주었으며, AI의 역할을 보조 도구에서 "대부분의 방어자가 준비하지 못한 규모로 결함을 발견하고 연결할 수 있는 자율적인 에이전트"로 변화시켰다.

회사의 블로그 게시물에 따르면, 단 3주간의 모델 기반 분석이 수동 침투 테스트(penetration testing) 1년치와 동등한 결과를 내며 더 넓은 커버리지를 제공했다. 경우에 따라 모델은 개별적으로는 위험도가 낮은 여러 취약점을 결합하여 치명적인 공격 경로(attack paths)를 만들어냈다. AI가 지원하는 시나리오에서 초기 접근(initial access)부터 데이터 반출(data exfiltration)까지의 시간은 단 25분까지 줄어들 수 있다.

프론티어 모델이 자율적 작업 수행자의 단계로 넘어서다

팔로알토네트웍스는 현재 프론티어 모델의 코딩 효율성 향상에 대해 다음과 같이 평가했다. [원문 발췌 종료]

원문 보기
원문 보기 (영어)
METR says it can barely measure Claude Mythos, Palo Alto Networks warns of autonomous AI attackers Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 10, 2026 Nano Banana Pro prompted by THE DECODER Key Points Claude Mythos Preview is the first AI model to hit the ceiling of evaluation organization METR's test methodology, achieving a 50 percent success rate on 16-hour tasks, meaning the model's capabilities now exceed what current benchmarks can reliably measure. Cyber security firm Palo Alto Networks warns of a shifting threat landscape following tests with Mythos and other models, as AI systems increasingly operate as autonomous agents that independently identify software vulnerabilities and connect them to critical attack paths. According to Palo Alto Networks, the models completed an entire year's worth of manual penetration testing in just three weeks, underscoring how rapidly AI is accelerating offensive security capabilities. Ask about this article… Search The evaluation organization METR is hitting the limits of its test methodology when measuring Claude Mythos' capabilities. Meanwhile, Palo Alto Networks warns that frontier models like Mythos are fundamentally reshaping the cybersecurity landscape. METR's testing framework can't keep up with Mythos METR, which specializes in AI risk assessment, evaluated an early version of Claude Mythos Preview during a limited time window in March 2026 . The organization estimates a 50 percent time horizon of at least 16 hours, with a 95 percent confidence interval of 8.5 to 55 hours. That metric describes the task length at which the model has a 50 percent chance of completing a task that would take a human the specified amount of time. METR uses a range of reference points for task length, such as training a classifier (around 45 minutes) or training an adversarially robust image model (around four hours). Ad According to METR, this value for Mythos is "at the upper end of what we can measure without new tasks." Of the 228 tasks in the test suite, only five are classified as 16 hours or longer. That makes measurements in this range "unstable and less meaningful than at ranges with better task coverage." METR therefore doesn't provide precise estimates for models above this threshold. Ad DEC_D_Incontent-1 The organization notes that its existing test suite "could still distinguish a much more capable model from current publicly-known state-of-the-art models." But the measurements in this range aren't robust enough for precise quantitative comparisons or extrapolations. METR is working on updated methods with longer tasks, though these are still in development. The real security risk may be that evaluation methods are growing more slowly than the models themselves. Ad Palo Alto Networks calls latest frontier LLMs "a step-change in capability" Cybersecurity company Palo Alto Networks assessed the risks of frontier models like Claude Mythos from a security perspective. The company says it had "early, unbounded access to the latest frontier AI models" lately, including Mythos, OpenAI's GPT-5.5-Cyber, and Claude Opus 4.7. Palo Alto Networks describes what it observed as "a step-change in capability." The models showed an "intuitive understanding of software vulnerabilities," shifting AI's role from assistant to autonomous agent "capable of discovering and chaining flaws at a scale that most defenders aren’t prepared for." Ad DEC_D_Incontent-2 According to the company's blog post , three weeks of model-based analysis matched an entire year of manual penetration testing, with broader coverage. In some cases, the models combined several individually low-rated vulnerabilities into critical attack paths. The time from initial access to data exfiltration can shrink to as little as 25 minutes in AI-supported scenarios. Ad Frontier models are crossing the threshold to autonomous operators Palo Alto Networks puts the coding efficiency improvement of current frontier models over their predecessors at around 50 percent. "That number sounds incremental, but in practice, it's the threshold at which AI crosses from a helpful assistant into an autonomous operator," the company writes. The company sees an additional risk in the rapidly growing, unmonitored attack surface, since "every desktop is effectively a server" as local AI agents become more common. At the same time, most organizations have no visibility into the code their own employees are generating and deploying. After the Mythos launch, the company initially predicted a six-month window before attackers would gain access to comparable capabilities. That assessment, Palo Alto Networks says, has "accelerated significantly." Independent research confirms a higher threat level, but the scope remains unclear Anthropic's Claude Mythos triggered cybersecurity hype in part because the company described the model as "too dangerous" to release, a PR tactic OpenAI already used with GPT-2 . Previous studies agree that the cybersecurity threat posed by more capable AI models has increased. But the actual scope of that threat is still unclear. The British AI Security Institute (AISI) found that Claude Mythos Preview could end-to-end network attacks but assumes this will initially only affect weak, unprotected networks. OpenAI's GPT-5.5, which has already shipped , reportedly solves similar multi-stage corporate attack simulations as well—even slightly above Mythos' level. Smaller AI models are also said to have comparable capabilities . The models can help with defense, too. Mozilla used Anthropic's Claude Mythos Preview to uncover security vulnerabilities in the Firefox browser. In April 2026 alone, Mozilla fixed a total of 423 security issues, a record, according to the company. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Palo Alto Networks | METR