GPT-5.5: 모두를 위한 신화 같은 해킹
OpenAI가 공개한 GPT-5.5는 소수만 사용할 수 있는 Anthropic의 Mythos 모델에 필적하는 엄청난 보안 취약점 탐지 성능을 보여줍니다. 소스 코드 없이 시스템을 테스트하는 블랙박스 환경에서도 기존 모델의 화이트박스(소스 코드 제공) 테스트보다 뛰어난 성능을 기록하며 패러다임을 뒤바꿨습니다. 화이트박스 환경에서의 압도적인 성능 향상은 보안 평가 벤치마크를 무의미하게 만들 정도로, 공격적 보안(Offensive Security) 분야에 혁명적인 변화를 예고합니다.
2026년 4월 23일 AI 연구 Albert Ziegler 블로그로 돌아가기
GPT-5.5: 모두를 위한 신화 같은 해킹
지난 몇 주 동안, 우리는 초기 액세스 권한을 부여받은 소수의 그룹에 속해 있었습니다. 우리는 자체 벤치마크와 워크플로우에 걸쳐 이를 테스트해 왔으며, 실제 실무에서 관찰한 바를 공유하고자 합니다. 다음은 GPT-5.5에 대한 우리의 평가이자, 우리의 공격적 보안(Offensive Security) 역량 측면에서 이 모델이 어떻게 성능을 발휘했는지에 대한 내용입니다.
Anthropic에는 'Mythos'라는 모델이 있지만, 이를 사용해 본 사람은 극소수에 불과합니다. 이제 OpenAI가 모든 면에서 이와 상당히 비견될 만한 모델을 내놓았으며, 이를 무료로 공개하고 있습니다. Mythos와 마찬가지로 GPT-5.5는 취약점 탐지 분야에서 혁신적인 도약을 가져다줍니다. 지난 몇 주 동안 저희는 초기 액세스 권한을 부여받은 소수의 그룹에 속해 있었습니다. 자체 벤치마크와 워크플로우 전반에 걸쳐 테스트를 진행했으며, 실제 현장에서 관찰된 결과를 공유합니다. GPT-5.5에 대한 저희의 견해와 공격적 보안 역량 측면에서의 성과를 소개합니다.
모델은 진공 상태에서 존재하지 않으므로, XBOW에서는 모델을 독립적으로 평가하지 않습니다. 우리는 모델을 에이전트 워크플로우 내에서 실행하고, 실제 침투 테스트(Penetration Testing) 작업에 적용하여 그 동작 방식을 측정합니다. 여기에는 취약점 발견부터 애플리케이션에 로그인하고 최종 보고서를 작성하는 것까지 모든 것이 포함됩니다. 또한 우리는 기본적으로 모델에 구애받지 않는 입장(Model-agnostic)입니다. 시스템의 각 부분은 작업에 따라 다른 모델을 사용합니다. 때로는 빠른 반응성을 위해 더 작고 빠른 모델을 사용하기도 하고, 때로는 정확도를 최대화하기 위해 사용 가능한 가장 성능이 뛰어난 모델을 사용하기도 합니다.
성능 측정 방법
이러한 점이 왜 중요한지 이해하려면 우리가 모델을 어떻게 평가하는지 간략히 설명할 가치가 있습니다. 이전 게시물에서 설명한 것처럼, 우리는 실제 취약점을 기반으로 한 내부 벤치마킹 시스템을 구축했습니다. 과거에 취약점이 발견된 오픈 소스 애플리케이션을 가져와 취약한 버전으로 상태를 고정한 다음, 우리의 에이전트를 실행합니다. 목표는 단순히 개별적인 응답 완성도를 측정하는 것이 아니라, 문제를 식별하고 악용하는 전체 과정을 평가하는 것입니다. 이를 통해 시간이 지남에 따라 모델을 일관되고 현실적으로 비교할 수 있습니다. 여기서 우리가 추적하는 주요 지표는 '누락률(Miss rate)'입니다. 즉, 모델이 알려진 취약점 중 몇 개를 찾지 못했는지를 측정합니다.
블랙박스의 거대한 도약, 그리고 사실상 끝난 화이트박스 벤치마크
이 벤치마크에서 GPT-5.5는 우리가 지금까지 본 것 중 최고의 성능을 보여줍니다. 참고로, GPT-5는 취약점의 40%를 놓쳤습니다. Opus 4.6은 이를 18%로 줄였습니다. 그리고 GPT-5.5는 이를 단 10%까지 끌어내렸습니다. 이는 결코 미미한 향상이 아닙니다. 발견하지 못하고 넘어간 모든 취약점은 현실 세계에서 심각한 위협이 됩니다. 자동화된 보안 테스트를 실행할 때 이러한 간극을 줄이는 것은 매우 중요합니다.
더욱 놀라운 점은 블랙박스(Black box)와 화이트박스(White box) 성능을 구분하여 비교할 때 나타납니다. 둘 다 중요합니다. 공격자는 보통 시스템을 블랙박스 관점에서 보지만, 침투 테스트의 경우 고객은 종종 더 완전한 화이트박스 테스트를 가능하게 하기 위해 소스 코드를 제공합니다. 소스 코드가 없는 블랙박스 상태에서도 GPT-5.5는 소스 코드가 제공된 상태의 GPT-5보다 이미 더 나은 성능을 보여줍니다. 이는 기존의 상식을 완전히 뒤집는 것입니다. 과거에는 블랙박스 테스트가 오븐 장갑을 끼고 싸우는 것과 같았습니다. 이제는 맨손으로 작업하는 것처럼 자유롭고 정확해졌습니다.
하지만 여기에 소스 코드를 추가하면 어떻게 될까요? 화이트박스 환경에서 GPT-5.5는 단순히 성능이 향상되는 것을 넘어, 다른 모델들을 완전히 압도하며 달아납니다. 성능의 도약이 너무 커서 사실상 차트의 척도를 압축시켜 버릴 정도입니다. 소스 코드가 주어진 상황에서 이 모델은 사실상 저희의 벤치마크를 끝내버렸습니다(더 이상 측정할 의미가 없을 정도입니다).
결론적으로, GPT-5.5는 블랙박스 테스트에서 최소 기준선(The floor)을 대폭 높였고, 화이트박스 테스트에서는 최고 한계(The ceiling)를 아득히 뛰어넘었습니다.
성공으로 가는 길
취약점이 발견되는지 여부는 단순한 이진법(0과 1)의 문제가 아닙니다. 어떤 것은 빨리 발견되고, 어떤 것은 천천히 발견됩니다. 취약점을 찾기 전까지 모델이 몇 번의 액션을 취하는지에 따라 모델을 비교해 보면, GPT 모델 간의 발전 과정에서 흥미로운 패턴이 나타납니다.
첫째, GPT-5.4는 더 빠르게 나아가는 법을 배웠습니다. 그리고 GPT-5.5는 더 깊이, 멀리 나아가는 법을 배웠습니다.
시각적으로도 분명한 것은, 5.4와 5.5 사이의 차이가 일반적인 소수점 버전 업그레이드의 차이를 몇 배나 뛰어넘는다는 것입니다.
실제 환경에서의 상호작용
또한 우리는 모델을 일명 '컴퓨터 사용(Computer use)' 벤치마크에서 테스트합니다. 이는 우리의 에이전트가 실제 환경에서...