메뉴
HN
Hacker News 37일 전

오픈AI, 실무 완수형 최신 모델 GPT-5.5 발표

IMP
9/10
핵심 요약

오픈AI가 실무 작업 처리 능력을 대폭 강화한 GPT-5.5를 발표했습니다. 이 모델은 복잡하고 다단계적인 업무를 독립적으로 수행하는 에이전트 능력과 코딩, 데이터 분석 역량에서 이전 모델을 뛰어넘는 성능을 보여주며, 속도 저하 없이 지능적인 작업이 가능합니다. 이로써 소프트웨어 개발을 넘어 과학 연구 및 일반적인 PC 업무 전반에 걸쳐 AI 기반 업무 자동화의 새로운 전환이 마련되었습니다.

번역된 본문

2026년 4월 23일 제품 출시

GPT‑5.5 소개: 실제 업무를 위한 새로운 차원의 지능 로딩 중... 공유하기

우리는 지금까지 개발한 모델 중 가장 똑똑하고 직관적인 GPT‑5.5를 출시합니다. 이는 컴퓨터에서 업무를 처리하는 새로운 방식을 향한 다음 단계입니다. GPT‑5.5는 사용자가 하고자 하는 작업의 의도를 더 빠르게 파악하며, 더 많은 부분을 직접 수행할 수 있습니다. 코드 작성 및 디버깅, 온라인 조사, 데이터 분석, 문서 및 스프레드시트 생성, 소프트웨어 조작, 그리고 작업이 완료될 때까지 여러 도구를 넘나드는 일에 탁월한 성능을 발휘합니다.

모든 단계를 일일이 세밀하게 관리할 필요 없이, 사용자는 GPT‑5.5에게 복잡하고 여러 단계로 이루어진 지저분한 작업을 맡기고 알아서 계획을 세우고, 도구를 활용하고, 자신의 작업을 점검하며, 모호한 상황을 헤쳐 나가 작업을 완수하도록 맡길 수 있습니다. 이러한 성능 향상은 에이전트 코딩, 컴퓨터 사용, 지식 노동, 초기 과학 연구 분야에서 특히 두드러집니다. 이러한 영역에서의 발전은 문맥에 걸친 추론과 시간이 지남에 따른 행동 수행에 달려 있기 때문입니다.

GPT‑5.5는 속도 저하 없이 이러한 지능의 도약을 구현합니다. 더 크고 유능한 모델은 종종 서비스 제공 속도가 느려지는 경향이 있지만, GPT‑5.5는 실제 서비스 환경에서 토큰당 지연 시간(per-token latency) 측면에서 GPT‑5.4와 동일한 속도를 유지하면서도 훨씬 더 높은 수준의 지능적 성능을 발휘합니다. 또한 동일한 Codex 작업을 완료하는 데 훨씬 더 적은 토큰을 사용하여 더욱 효율적이고 강력해졌습니다.

우리는 지금까지 중 가장 강력한 안전장치를 적용하여 GPT‑5.5를 출시하고 있으며, 이는 유용한 작업에 대한 접근성은 유지하면서 오용을 줄이도록 설계되었습니다. 우리는 전체 안전 및 준비 상태 프레임워크에 걸쳐 이 모델을 평가했으며, 내부 및 외부 레드팀과 협력하고, 고급 사이버 보안 및 생물학적 역량에 대한 표적 테스트를 추가했으며, 출시 전 거의 200명의 신뢰할 수 있는 얼리 액세스 파트너로부터 실제 사용 사례에 대한 피드백을 수집했습니다.

오늘부터 ChatGPT 및 Codex에서 Plus, Pro, Business, Enterprise 사용자에게 GPT‑5.5가 제공되며, ChatGPT의 Pro, Business, Enterprise 사용자에게는 GPT‑5.5 Pro가 제공됩니다. API 배포는 다른 안전장치가 필요하며, 우리는 대규모로 서비스하기 위한 안전 및 보안 요구 사항에 대해 파트너 및 고객과 긴밀히 협력하고 있습니다. 조만간 GPT‑5.5 및 GPT‑5.5 Pro를 API에도 도입할 예정입니다.

[모델 벤치마크]

  • GPT-5.5 | GPT-5.4 | GPT-5.5 Pro | GPT-5.4 Pro | Claude Opus 4.7 | Gemini 3.1 Pro
  • Terminal-Bench 2.0: 82.7% | 75.1% | - | - | 69.4% | 68.5%
  • Expert-SWE (내부): 73.1% | 68.5% | - | - | - | -
  • GDPval (승리 또는 무승부): 84.9% | 83.0% | 82.3% | 82.0% | 80.3% | 67.3%
  • OSWorld-Verified: 78.7% | 75.0% | - | - | 78.0% | -
  • Toolathlon: 55.6% | 54.6% | - | - | - | 48.8%
  • BrowseComp: 84.4% | 82.7% | 90.1% | 89.3% | 79.3% | 85.9%
  • FrontierMath Tier 1–3: 51.7% | 47.6% | 52.4% | 50.0% | 43.8% | 36.9%
  • FrontierMath Tier 4: 35.4% | 27.1% | 39.6% | 38.0% | 22.9% | 16.7%
  • CyberGym: 81.8% | 79.0% | - | - | 73.1% | -

모델 역량

OpenAI는 전 세계 사람과 기업이 AI를 통해 업무를 수행할 수 있도록 에이전트 AI를 위한 글로벌 인프라를 구축하고 있습니다. 지난 1년 동안 소프트웨어 엔지니어링이 AI를 통해 극적으로 가속화되는 것을 보았습니다. Codex 및 ChatGPT에 탑재된 GPT‑5.5와 함께, 이러한 변화가 과학 연구와 사람들이 컴퓨터로 수행하는 더 광범위한 업무 영역으로 확장되기 시작했습니다.

이러한 모든 영역에서 GPT‑5.5는 단순히 더 지능적일 뿐만 아니라 문제를 해결하는 방식이 더 효율적이며, 종종 더 적은 토큰과 더 적은 재시도로 더 높은 품질의 결과를 도출합니다. Artificial Analysis의 코딩 지수(Coding Index)에 따르면, GPT‑5.5는 경쟁사의 최첨단 코딩 모델보다 절반의 비용으로 최고 수준(state-of-the-art)의 지능을 제공합니다.

에이전트 코딩 GPT‑5.5는 우리가 지금까지 개발한 가장 강력한 에이전트 코딩 모델입니다. 계획, 반복 작업, 도구 조정이 필요한 복잡한 명령줄 워크플로우를 테스트하는 Terminal-Bench 2.0에서 최고 수준의 정확도인 82.7%를 달성했습니다. 실제 GitHub 이슈 해결 능력을 평가하는 SWE-Bench Pro에서는 58.6%에 도달하며, 기존 모델보다 단 한 번의 패스로 더 많은 작업을 종단간(end-to-end) 해결했습니다. 인간이 완료하는 데 평균 20시간이 소요되는 장기 코딩 작업에 대한 내부 최고 난도 평가인 Expert-SWE에서도 GPT‑5.5는 GPT‑5.4를 능가합니다. 이 세 가지 평가 모두에서 GPT‑5.5는 GPT‑5.4의 점수를 뛰어넘었습니다.

원문 보기
원문 보기 (영어)
April 23, 2026 Product Release Introducing GPT‑5.5 A new class of intelligence for real work Loading… Share We’re releasing GPT‑5.5, our smartest and most intuitive to use model yet, and the next step toward a new way of getting work done on a computer. GPT‑5.5 understands what you’re trying to do faster and can carry more of the work itself. It excels at writing and debugging code, researching online, analyzing data, creating documents and spreadsheets, operating software, and moving across tools until a task is finished. Instead of carefully managing every step, you can give GPT‑5.5 a messy, multi-part task and trust it to plan, use tools, check its work, navigate through ambiguity, and keep going. The gains are especially strong in agentic coding, computer use, knowledge work, and early scientific research—areas where progress depends on reasoning across context and taking action over time. GPT‑5.5 delivers this step up in intelligence without compromising on speed: larger, more capable models are often slower to serve, but GPT‑5.5 matches GPT‑5.4 per-token latency in real-world serving, while performing at a much higher level of intelligence. It also uses significantly fewer tokens to complete the same Codex tasks, making it more efficient as well as more capable. We are releasing GPT‑5.5 with our strongest set of safeguards to date, designed to reduce misuse while preserving access for beneficial work. We evaluated this model across our full suite of safety and preparedness frameworks, worked with internal and external redteamers, added targeted testing for advanced cybersecurity and biology capabilities, and collected feedback on real use cases from nearly 200 trusted early-access partners before release. Today, GPT‑5.5 is rolling out to Plus, Pro, Business, and Enterprise users in ChatGPT and Codex, and GPT‑5.5 Pro is rolling out to Pro, Business, and Enterprise users in ChatGPT. API deployments require different safeguards and we are working closely with partners and customers on the safety and security requirements for serving it at scale. We'll bring GPT‑5.5 and GPT‑5.5 Pro to the API very soon. GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5% Expert-SWE (Internal) 73.1% 68.5% - - - - GDPval (wins or ties) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3% OSWorld-Verified 78.7% 75.0% - - 78.0% - Toolathlon 55.6% 54.6% - - - 48.8% BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9% FrontierMath Tier 1–3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9% FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7% CyberGym 81.8% 79.0% - - 73.1% - Model capabilities OpenAI is building the global infrastructure for agentic AI, making it possible for people and businesses around the world to get work done with AI. Over the past year, we’ve seen AI dramatically accelerate software engineering. With GPT‑5.5 in Codex and ChatGPT, that same transformation is beginning to extend into scientific research and the broader work people do on computers. Across these domains, GPT‑5.5 is not just more intelligent; it is more efficient in how it works through problems, often reaching higher-quality outputs with fewer tokens and fewer retries. On Artificial Analysis's Coding Index, GPT‑5.5 delivers state-of-the-art intelligence at half the cost of competitive frontier coding models. Agentic coding GPT‑5.5 is our strongest agentic coding model to date. On Terminal-Bench 2.0, which tests complex command-line workflows requiring planning, iteration, and tool coordination, it achieves a state-of-the-art accuracy of 82.7%. On SWE-Bench Pro , which evaluates real-world GitHub issue resolution, it reaches 58.6%, solving more tasks end-to-end in a single pass than previous models. On Expert-SWE , our internal frontier eval for long-horizon coding tasks with a median estimated human completion time of 20 hours, GPT‑5.5 also outperforms GPT‑5.4. Across all three evals, GPT‑5.5 improves on GPT‑5.4’s scores while using fewer tokens. The model’s coding strengths show up especially clearly in Codex where it can take on engineering work ranging from implementation and refactors to debugging, testing, and validation. Early testing suggests GPT‑5.5 is better at the behaviors real engineering work depends on, like holding context across large systems, reasoning through ambiguous failures, checking assumptions with tools, and carrying changes through the surrounding codebase. The rendered trajectory uses NASA/JPL Horizons vector data for Orion, the Moon, and the Sun, with display scaling applied for readability. Prompt: [attached image] Implement this as a new app using webgl and vite using real data from the artemis II mission. Make sure to test the app thoroughly until it is fully functional and looks like the app in the picture. Pay close attention to the rendering of the planets and fly paths. I want to be able to interact with the 3D rendering. Ensure it has realistic orbital mechanics. Beyond benchmarks, early testers said GPT‑5.5 shows a stronger ability to understand the shape of a system: why something is failing, where the fix needs to land, and what else in the codebase would be affected. “The first coding model I’ve used that has serious conceptual clarity.” “The first coding model I’ve used that has serious conceptual clarity.” Dan Shipper , Founder and CEO of Every, described GPT‑5.5 as “the first coding model I’ve used that has serious conceptual clarity.” After launching an app, he spent days debugging a post-launch issue before bringing in one of his best engineers to rewrite part of the system. To test GPT‑5.5, he effectively rewound the clock: could the model look at the broken state and produce the same kind of rewrite the engineer eventually decided on? GPT‑5.4 could not. GPT‑5.5 could. “ It genuinely feels like I’m working with a higher intelligence, and there’s almost a sense of respect. ” “ It genuinely feels like I’m working with a higher intelligence, and there’s almost a sense of respect. ” Pietro Schirano, CEO of MagicPath, saw a similar step change when GPT‑5.5 merged a branch with hundreds of frontend and refactor changes into a main branch that had also changed substantially, resolving the work in one shot in about 20 minutes. Senior engineers who tested the model said GPT‑5.5 was noticeably stronger than GPT‑5.4 and Claude Opus 4.7 at reasoning and autonomy, catching issues in advance and predicting testing and review needs without explicit prompting. In one case, an engineer asked it to re-architect a comment system in a collaborative markdown editor and returned to a 12-diff stack that was nearly complete. Others said they needed surprisingly little implementation correction and felt more confident in GPT‑5.5’s plans compared with GPT‑5.4. One engineer at NVIDIA who had early access to the model went as far as to say: "Losing access to GPT‑5.5 feels like I've had a limb amputated.” “GPT-5.5 is noticeably smarter and more persistent than GPT-5.4, with stronger coding performance and more reliable tool use. It stays on task for significantly longer without stopping early, which matters most for the complex, long-running work our users delegate to Cursor.” — Michael Truell, Co-founder & CEO at Cursor Knowledge work The same strengths that make GPT‑5.5 great at coding also make it powerful for everyday work on a computer. Because the model is better at understanding intent, it can move more naturally through the full loop of knowledge work: finding information, understanding what matters, using tools, checking the output, and turning raw material into something useful. In Codex, GPT‑5.5 is better than GPT‑5.4 at generating documents, spreadsheets, and slide presentations. Alpha testers said it outperformed past models on work like operational research, spreadsheet modeling, and turning messy business inputs into plans. When combined with Codex’s computer use skills, GPT‑5.5 brings us closer to the feeli
관련 소식