메뉴
HN
Hacker News 37일 전

GPT-5.5: 모두를 위한 신화 같은 해킹

IMP
9/10
핵심 요약

OpenAI가 공개한 GPT-5.5는 소수만 사용할 수 있는 Anthropic의 Mythos 모델에 필적하는 엄청난 보안 취약점 탐지 성능을 보여줍니다. 소스 코드 없이 시스템을 테스트하는 블랙박스 환경에서도 기존 모델의 화이트박스(소스 코드 제공) 테스트보다 뛰어난 성능을 기록하며 패러다임을 뒤바꿨습니다. 화이트박스 환경에서의 압도적인 성능 향상은 보안 평가 벤치마크를 무의미하게 만들 정도로, 공격적 보안(Offensive Security) 분야에 혁명적인 변화를 예고합니다.

번역된 본문

2026년 4월 23일 AI 연구 Albert Ziegler 블로그로 돌아가기

GPT-5.5: 모두를 위한 신화 같은 해킹

지난 몇 주 동안, 우리는 초기 액세스 권한을 부여받은 소수의 그룹에 속해 있었습니다. 우리는 자체 벤치마크와 워크플로우에 걸쳐 이를 테스트해 왔으며, 실제 실무에서 관찰한 바를 공유하고자 합니다. 다음은 GPT-5.5에 대한 우리의 평가이자, 우리의 공격적 보안(Offensive Security) 역량 측면에서 이 모델이 어떻게 성능을 발휘했는지에 대한 내용입니다.

Anthropic에는 'Mythos'라는 모델이 있지만, 이를 사용해 본 사람은 극소수에 불과합니다. 이제 OpenAI가 모든 면에서 이와 상당히 비견될 만한 모델을 내놓았으며, 이를 무료로 공개하고 있습니다. Mythos와 마찬가지로 GPT-5.5는 취약점 탐지 분야에서 혁신적인 도약을 가져다줍니다. 지난 몇 주 동안 저희는 초기 액세스 권한을 부여받은 소수의 그룹에 속해 있었습니다. 자체 벤치마크와 워크플로우 전반에 걸쳐 테스트를 진행했으며, 실제 현장에서 관찰된 결과를 공유합니다. GPT-5.5에 대한 저희의 견해와 공격적 보안 역량 측면에서의 성과를 소개합니다.

모델은 진공 상태에서 존재하지 않으므로, XBOW에서는 모델을 독립적으로 평가하지 않습니다. 우리는 모델을 에이전트 워크플로우 내에서 실행하고, 실제 침투 테스트(Penetration Testing) 작업에 적용하여 그 동작 방식을 측정합니다. 여기에는 취약점 발견부터 애플리케이션에 로그인하고 최종 보고서를 작성하는 것까지 모든 것이 포함됩니다. 또한 우리는 기본적으로 모델에 구애받지 않는 입장(Model-agnostic)입니다. 시스템의 각 부분은 작업에 따라 다른 모델을 사용합니다. 때로는 빠른 반응성을 위해 더 작고 빠른 모델을 사용하기도 하고, 때로는 정확도를 최대화하기 위해 사용 가능한 가장 성능이 뛰어난 모델을 사용하기도 합니다.

성능 측정 방법

이러한 점이 왜 중요한지 이해하려면 우리가 모델을 어떻게 평가하는지 간략히 설명할 가치가 있습니다. 이전 게시물에서 설명한 것처럼, 우리는 실제 취약점을 기반으로 한 내부 벤치마킹 시스템을 구축했습니다. 과거에 취약점이 발견된 오픈 소스 애플리케이션을 가져와 취약한 버전으로 상태를 고정한 다음, 우리의 에이전트를 실행합니다. 목표는 단순히 개별적인 응답 완성도를 측정하는 것이 아니라, 문제를 식별하고 악용하는 전체 과정을 평가하는 것입니다. 이를 통해 시간이 지남에 따라 모델을 일관되고 현실적으로 비교할 수 있습니다. 여기서 우리가 추적하는 주요 지표는 '누락률(Miss rate)'입니다. 즉, 모델이 알려진 취약점 중 몇 개를 찾지 못했는지를 측정합니다.

블랙박스의 거대한 도약, 그리고 사실상 끝난 화이트박스 벤치마크

이 벤치마크에서 GPT-5.5는 우리가 지금까지 본 것 중 최고의 성능을 보여줍니다. 참고로, GPT-5는 취약점의 40%를 놓쳤습니다. Opus 4.6은 이를 18%로 줄였습니다. 그리고 GPT-5.5는 이를 단 10%까지 끌어내렸습니다. 이는 결코 미미한 향상이 아닙니다. 발견하지 못하고 넘어간 모든 취약점은 현실 세계에서 심각한 위협이 됩니다. 자동화된 보안 테스트를 실행할 때 이러한 간극을 줄이는 것은 매우 중요합니다.

더욱 놀라운 점은 블랙박스(Black box)와 화이트박스(White box) 성능을 구분하여 비교할 때 나타납니다. 둘 다 중요합니다. 공격자는 보통 시스템을 블랙박스 관점에서 보지만, 침투 테스트의 경우 고객은 종종 더 완전한 화이트박스 테스트를 가능하게 하기 위해 소스 코드를 제공합니다. 소스 코드가 없는 블랙박스 상태에서도 GPT-5.5는 소스 코드가 제공된 상태의 GPT-5보다 이미 더 나은 성능을 보여줍니다. 이는 기존의 상식을 완전히 뒤집는 것입니다. 과거에는 블랙박스 테스트가 오븐 장갑을 끼고 싸우는 것과 같았습니다. 이제는 맨손으로 작업하는 것처럼 자유롭고 정확해졌습니다.

하지만 여기에 소스 코드를 추가하면 어떻게 될까요? 화이트박스 환경에서 GPT-5.5는 단순히 성능이 향상되는 것을 넘어, 다른 모델들을 완전히 압도하며 달아납니다. 성능의 도약이 너무 커서 사실상 차트의 척도를 압축시켜 버릴 정도입니다. 소스 코드가 주어진 상황에서 이 모델은 사실상 저희의 벤치마크를 끝내버렸습니다(더 이상 측정할 의미가 없을 정도입니다).

결론적으로, GPT-5.5는 블랙박스 테스트에서 최소 기준선(The floor)을 대폭 높였고, 화이트박스 테스트에서는 최고 한계(The ceiling)를 아득히 뛰어넘었습니다.

성공으로 가는 길

취약점이 발견되는지 여부는 단순한 이진법(0과 1)의 문제가 아닙니다. 어떤 것은 빨리 발견되고, 어떤 것은 천천히 발견됩니다. 취약점을 찾기 전까지 모델이 몇 번의 액션을 취하는지에 따라 모델을 비교해 보면, GPT 모델 간의 발전 과정에서 흥미로운 패턴이 나타납니다.

첫째, GPT-5.4는 더 빠르게 나아가는 법을 배웠습니다. 그리고 GPT-5.5는 더 깊이, 멀리 나아가는 법을 배웠습니다.

시각적으로도 분명한 것은, 5.4와 5.5 사이의 차이가 일반적인 소수점 버전 업그레이드의 차이를 몇 배나 뛰어넘는다는 것입니다.

실제 환경에서의 상호작용

또한 우리는 모델을 일명 '컴퓨터 사용(Computer use)' 벤치마크에서 테스트합니다. 이는 우리의 에이전트가 실제 환경에서...

원문 보기
원문 보기 (영어)
April 23, 2026 AI Research Albert Ziegler Back to Blog GPT-5.5: Mythos-Like Hacking, Open To All Over the last couple of weeks, we’ve been part of a select group that had early access. We’ve been testing it across our benchmarks and workflows, and we’re sharing what we’ve observed in practice. Here’s our take on 5.5 and how it performed for our offensive security capabilities. Anthropic has Mythos, but only a select few have seen it. Now, OpenAI has a model that, by all accounts, seems rather comparable—but they're releasing it freely. Like Mythos, GPT 5.5 delivers a step change in vulnerability detection. Over the last couple of weeks, we’ve been part of a select group that had early access. We’ve been testing it across our benchmarks and workflows, and we’re sharing what we’ve observed in practice. Here’s our take on 5.5 and how it performed for our offensive security capabilities. Models don’t exist in a vacuum, so at XBOW, we don’t evaluate them in isolation. We run them inside our agent workflows, across real penetration testing tasks, and measure how they behave. That includes everything from discovering vulnerabilities, to logging into applications, to producing final reports. We’re also model-agnostic by design. Different parts of our system use different models depending on the job—sometimes that means a smaller, faster model for responsiveness, other times it means using the most capable model available to maximize accuracy. How We Measure Performance To understand why that matters, it’s worth briefly explaining how we evaluate models. As we outlined in a previous post , we’ve built an internal benchmarking system based on real vulnerabilities. We take open source applications where vulnerabilities were previously discovered, freeze them at the vulnerable version, and run our agents against them. The goal isn’t to measure isolated completions, but to evaluate the full process of identifying and exploiting those issues. This gives us a consistent and realistic way to compare models over time. The primary metric we track here is miss rate: how many known vulnerabilities the model fails to find. A Giant Leap for Blackbox, and our Whitebox Benchmark is Dead On this benchmark, GPT-5.5 delivers the best performance we’ve seen to date. For context, GPT-5 missed 40% of vulnerabilities. Opus 4.6 reduced that to 18%. GPT-5.5 brings it down further to just 10%. That’s not a marginal improvement. Every missed vulnerability is a real life liability. When you’re running automated security testing, closing that gap matters. The more striking story shows up when you break out black box vs. white box performance. Both are important – attackers usually see systems from the black box perspective, though for a pentest, customers often will provide their source code to enable the more complete white box testing. Even without source code, GPT-5.5 already outperforms GPT-5 running with source code. That flips the expected hierarchy on its head: Black box used to mean fighting with oven mitts on. Now it feels like working barehanded. But then you add source code. In a white box setting, GPT-5.5 doesn’t just improve—it pulls away. The performance jump is so large it effectively compresses the chart. With code, it’s effectively killed our benchmark. Bottom line: GPT-5.5 raises the floor in black box testing and blows past the ceiling in white box testing. ‍ The Road to Success Whether a vulnerability is found or not is not a binary though – some are found quickly, some slowly. When comparing the models by how many actions they take before finding a vulnerability, an interesting pattern in the progression between GPT models emerges: First GPT-5.4 learned to go faster Then GPT-5.5 learned to go further Even visually, it’s also clear that the difference between 5.4 and 5.5 is a multiple of the typical sub-version advance. Real-World Interaction We also test models on what we call “computer use” benchmarks—tasks that reflect how our agents interact with real applications. This includes logging in, navigating interfaces, and dealing with the kinds of friction you encounter in production environments. On our visual acuity benchmark, GPT-5.5 achieves 97.5%, which puts it within the margin of the best results we’ve seen (Anthropic’s Opus 4.7). But again, the more interesting improvements show up in actual workflows. When logging into target systems, GPT-5.5 is significantly faster than any model we’ve tested. It successfully logs in using roughly half the number of iterations required by the next best model. Just as importantly, it fails faster too. If credentials are incorrect or a system blocks access, it identifies that and moves on in about half the time. That might sound like a small detail, but it has a direct impact on user experience. Faster success speeds up assessments. Faster failure means we can notify customers about issues—like broken credentials or bot detection—much earlier. And it ties into a more general theme: ‍ Persist or Pivot One of the more understated improvements is how GPT-5.5 behaves when things don’t work. In practice, agents need to constantly decide whether to persist or pivot. Push too hard on a failing path and you waste time. Give up too early and you miss opportunities. Getting that balance right is difficult, and it’s something even frontier labs are struggling to train LLMs for. After all, RLHF and similar methods optimize them to make their consumer happy, and no one likes the bitter medicine of: “the best thing to do right now is to give up”. Yet as we keep giving models more and more responsibility, giving up instead of stupidly bashing their head against a wall becomes more important than ever. In XBOW’s set of example cases for situations in which an agent should give up, GPT-5.5 still sometimes persists longer than ideal – but only half as often as previous GPT versions (or Opus, in fact). That makes GPT-5.5 not just more capable, but also more practical. ‍ What This Means for Customers All of this translates into tangible improvements. Investigations complete faster. Vulnerability coverage improves. Feedback loops tighten, especially when something goes wrong early in a test. The overall experience becomes more responsive and more reliable. Because we run a multi-model system, this doesn’t mean a single model replaces everything else. We’ll continue to use different models across different parts of the stack depending on the task. But for core penetration testing workflows, GPT-5.5 is clearly setting a new bar. ‍ GPT-5.5: Leading in The Areas That Matter Most We use the best model for each job, and right now GPT-5.5 is leading in several areas. Some of these are pentesting specific, but its strong performance isn’t limited to these. That paints a picture of a model that’s just generally more powerful – a larger increase than the typical subversion bump. We’ll continue evaluating it as it rolls into production, but early results suggest it will become a key part of our stack. ‍ LinkedIn Live Webinar: Mythos can surface thousands of findings. The challenge is knowing what actually matters. Join this session to see how teams validate exploitability, prioritize risk, and avoid alert overload in a post-Mythos world. Register today > https://xbow-website-b1b.pages.dev/traces/ Albert Ziegler Head of AI LinkedIn Bluesky X Github
관련 소식