클로드 미토스 측정 한계 도달, 자율적 AI 공격 경고
AI 평가기관 METR은 최신 모델인 클로드 미토스(Claude Mythos)의 성능이 기존 테스트 방법론의 한계를 초과하여 제대로 된 측정이 불가능해졌다고 밝혔습니다. 사이버 보안 기업 팔로알토네트웍스(Palo Alto Networks)는 해당 프론티어 AI 모델들이 스스로 소프트웨어 취약점을 파악하고 연쇄적인 공격 경로를 구성하는 자율적 공격자로 변모하고 있다고 경고했습니다. 이는 보안 평가 방법론이 AI 모델의 발전 속도를 따라가지 못하는 심각한 보안 위협을 시사합니다.
평가 기관 METR은 클로드 미토스(Claude Mythos)의 능력을 측정하는 과정에서 자체 테스트 방법론의 한계에 부딪혔다고 밝혔다. 이와 동시에 팔로알토네트웍스(Palo Alto Networks)는 미토스와 같은 프론티어 모델(Frontier models)이 사이버 보안 환경을 근본적으로 변화시키고 있다고 경고했다.
METR의 테스트 프레임워크가 미토스를 따라가지 못하는 이유
AI 리스크 평가를 전문으로 하는 기관 METR은 2026년 3월, 제한된 시간 동안 클로드 미토스 프리뷰(Claude Mythos Preview)의 초기 버전을 평가했다. 이 조직은 이 모델의 50% 시간 수준(time horizon)이 최소 16시간이며, 95% 신뢰 구간은 8.5시간에서 55시간 사이일 것으로 추정했다. 이 지표는 인간이 특정 시간이 걸려 완료할 작업을 모델이 50%의 확률로 완수할 수 있는 작업의 길이를 의미한다. METR은 작업 길이의 다양한 기준점을 사용하는데, 예를 들어 분류기 학습(약 45분) 또는 적대적으로 강건한 이미지 모델(adversarially robust image model) 학습(약 4시간) 등이 있다.
METR에 따르면, 미토스의 이 수치는 "새로운 작업 없이 우리가 측정할 수 있는 범위의 상한선"에 해당한다. 테스트 모음(test suite)에 포함된 228개의 작업 중 단 5개만이 16시간 이상으로 분류된다. 이로 인해 이 범위에서의 측정은 "불안정하며 작업 구성이 더 다양한 범위보다 의미가 덜하다"고 밝혔다. 따라서 METR은 이 임계값을 넘는 모델에 대해서는 정확한 추정치를 제공하지 않는다.
이 조직은 기존 테스트 모음이 "현재 공개적으로 알려진 최고 수준의 모델보다 훨씬 더 뛰어난 모델을 여전히 구별할 수는 있다"고 지적했다. 하지만 이 범위에서의 측정은 정확한 정량적 비교나 외삽(extrapolation)을 하기에는 충분히 견고하지 않다. METR은 더 긴 작업을 포함한 업데이트된 방법을 개발 중이지만, 아직 진행 단계에 있다. 진짜 보안 위험은 평가 방법이 모델 자체의 발전 속도보다 더 느리게 성장하고 있다는 데 있을 수 있다.
팔로알토네트웍스, 최신 프론티어 LLM을 "능력의 획기적 전환점"이라고 평가
사이버 보안 기업 팔로알토네트웍스는 보안 관점에서 클로드 미토스와 같은 프론티어 모델의 리스크를 평가했다. 이 회사는 최근 미토스, 오픈AI의 GPT-5.5-Cyber, 클로드 오퍼스 4.7(Claude Opus 4.7)을 포함하여 "최신 프론티어 AI 모델에 대한 초기 무제한 액세스"를 가졌다고 밝혔다.
팔로알토네트웍스는 관찰한 바를 "능력의 획기적 전환점(a step-change in capability)"이라고 설명했다. 이 모델들은 "소프트웨어 취약점에 대한 직관적인 이해"를 보여주었으며, AI의 역할을 보조 도구에서 "대부분의 방어자가 준비하지 못한 규모로 결함을 발견하고 연결할 수 있는 자율적인 에이전트"로 변화시켰다.
회사의 블로그 게시물에 따르면, 단 3주간의 모델 기반 분석이 수동 침투 테스트(penetration testing) 1년치와 동등한 결과를 내며 더 넓은 커버리지를 제공했다. 경우에 따라 모델은 개별적으로는 위험도가 낮은 여러 취약점을 결합하여 치명적인 공격 경로(attack paths)를 만들어냈다. AI가 지원하는 시나리오에서 초기 접근(initial access)부터 데이터 반출(data exfiltration)까지의 시간은 단 25분까지 줄어들 수 있다.
프론티어 모델이 자율적 작업 수행자의 단계로 넘어서다
팔로알토네트웍스는 현재 프론티어 모델의 코딩 효율성 향상에 대해 다음과 같이 평가했다. [원문 발췌 종료]