메뉴
BL
The Decoder 23일 전

오픈AI 실시간 음성 모델, GPT-5 수준 추론 능력 탑재

IMP
8/10
핵심 요약

오픈AI가 실시간 추론, 번역, 전사 기능에 특화된 3종的新 음성 모델(GPT-Realtime-2, Translate, Whisper)을 공개했습니다. 특히 핵심 모델인 GPT-Realtime-2는 기존 텍스트 모델과 비견되는 GPT-5 수준의 추론 능력과 12만 8천 토큰의 긴 문맥 처리 능력을 제공합니다. 이를 통해 개발자들은 단순한 질의응답을 넘어 도구 사용과 복잡한 문맥을 이해하는 수준 높은 실시간 음성 AI 에이전트를 구축할 수 있게 되었습니다.

번역된 본문

오픈AI(OpenAI)가 실시간으로 추론, 번역, 전사를 수행할 수 있는 새로운 세대의 음성 모델인 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 출시했습니다.

ChatGPT에는 이미 음성 모드가 있었고, 구글(Google) 역시 제미나이(Gemini)를 통해 유사한 실시간 대화 기능을 제공하고 있습니다. 하지만 이러한 음성 상호작용을 담당했던 기존 모델들은 문제 해결을 위해 깊게 생각하는 텍스트 추론 모델들, 특히 텍스트 전용 모델들에 비해 성능이 현저히 떨어지는 한계가 있었습니다.

오픈AI에 따르면, 이제는 그 정도 수준으로는 부족합니다. 현대의 음성 에이전트는 사용자의 진짜 의도를 파악하고, 문맥을 유지하며, 중간에 변경 사항이 생겨도 유연하게 대처하고, 도구를 사용하며, 이 모든 것을 동시에 처리하면서도 적절하게 응답할 수 있어야 합니다.

이를 위해 오픈AI는 서로 결합하여 사용할 수도 있는 세 가지 새로운 상호작용 패턴을 제안했습니다. 먼저 "음성에서 행동으로(Voice-to-Action)" 패턴은 사용자가 필요한 작업을 음성으로 설명하면, 시스템이 해당 요청을 추론하여 적절한 도구를 호출하고 작업을 완료하는 방식입니다.

"시스템에서 음성으로(Systems-to-Voice)" 패턴은 소프트웨어가 상황에 맞는 정보를 음성 안내로 제공합니다. 예를 들어, 여행 앱이 항공편 지연 상황에서도 사용자가 아직 연결편을 탈 수 있음을 알리고, 새로운 탑승구로 가는 가장 빠른 경로를 안내하며, 수하물 환승이 완료되었음을 음성으로 확인해 줄 수 있습니다.

마지막으로 "음성에서 음성으로(Voice-to-Voice)" 패턴은 언어 장벽을 넘어 사람들이 실시간 대화를 나눌 수 있도록 AI가 돕는 방식입니다. 도이치 텔레콤(Deutsche Telekom)은 이미 고객 지원에 이 패턴을 테스트하고 있습니다. 오픈AI는 이러한 기능들이 곧 ChatGPT의 음성 모드에도 적용될 것이라고 밝혔으며, "이제 음성이 진정한 기본 인터페이스가 될 수 있다"고 강조했습니다.

GPT-Realtime-2, '버퍼링' 문법으로 추론 시간 확보

이번 출시의 핵심은 GPT-5 수준의 추론 능력을 가져왔다고 오픈AI가 밝힌 GPT-Realtime-2입니다. 이 모델은 대화를 나누고, 요청을 처리하며, 도구를 호출하고, 중간에 끼어드는 사용자의 발화까지 동시에 처리해야 하는 라이브 음성 상호작용을 위해 설계되었습니다.

기술적으로 컨텍스트 윈도우(Context Window)가 기존 32,000토큰에서 128,000토큰으로 확장되어 더 길고 복잡한 대화를 지원합니다. 또한 여러 도구를 동시에(병렬로) 호출할 수 있으며, "확인해 보겠습니다"와 같은 문구를 사용하여 도구 사용 과정을 음성으로 들려줄 수 있습니다. "잠시만 기다려주세요"와 같은 짧은 도입 문장(Preamble)을 통해 사용자에게 시스템이 작동 중임을 알리고, 오류가 발생했을 때는 침묵하지 않고 "지금 해당 작업에 문제가 발생했습니다"라고 말하며 상황을 회피할 수 있습니다.

오픈AI에 따르면 이 모델은 전작에 비해 전문 용어, 고유명사, 의학 용어 처리 능력이 크게 향상되었습니다. 음성 톤 제어 또한 더욱 정교해져 문제 해결 중에는 차분하게, 불만을 제기하는 사용자에게는 공감하며, 작업이 성공적으로 완료된 후에는 밝은 톤으로 응답하는 것이 가능합니다.

특히 개발자들은 다섯 가지 수준(Minimum, Low, Medium, High, XHigh)으로 추론 강도(Reasoning Intensity)를 조절할 수 있습니다. 기본값은 간단한 요청에 대한 지연 시간(Latency)을 줄이기 위해 'Low'로 설정되어 있으며, 복잡하고 어려운 작업에는 더 많은 컴퓨팅 자원을 할당할 수 있습니다.

벤치마크 테스트에서 GPT-Realtime-2는 전작인 GPT-Realtime-1.5를 능가하는 성능을 보여주었습니다. 'High' 설정에서는 Big Bench Audio 벤치마크에서 81.4%였던 정확도를 96.6%로 끌어올렸습니다. 또한 여러 턴에 걸친 대화에서 지시 사항 수행 능력을 평가하는 Audio MultiChallenge 벤치마크에서는 'XHigh' 설정으로 48.5%의 점수를 기록했습니다.

원문 보기
원문 보기 (영어)
OpenAI's new voice model brings GPT-5-level reasoning to real-time conversations Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 7, 2026 GPT-Image-2 prompted by THE DECODER Key Points OpenAI has introduced three new real-time models—GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper—capable of reasoning, translating, and transcribing in real time. The core model, GPT-Realtime-2, can use multiple tools in parallel and features a reasoning intensity adjustable across five levels, giving developers fine-grained control over how deeply the model processes information. The lineup is rounded out by GPT-Realtime-Translate for live translation and GPT-Realtime-Whisper for streaming transcription, with all three models now available through OpenAI's Realtime API. Ask about this article… Search OpenAI is shipping GPT-Realtime-2, GPT-Realtime-Translate, and GPT-Realtime-Whisper - a new generation of voice models built to reason, translate, and transcribe on the fly. ChatGPT has had an audio mode for a while, and Google offers a similar real-time conversation feature through Gemini. But the models behind these voice interactions have been significantly weaker than their text-only counterparts, especially compared to text reasoning models that take time to think through problems. According to OpenAI , that's no longer cutting it. A modern voice agent needs to understand what someone actually means, keep track of context, roll with changes, use tools, and respond appropriately - all at the same time. Ad The company came up with three new interaction patterns that can also be combined. With "Voice-to-Action," a user describes what they need out loud, and the system reasons through the request, calls the right tools, and gets the job done. Ad DEC_D_Incontent-1 With "Systems-to-Voice," software turns context into spoken guidance. A travel app could tell a passenger that their connecting flight is still reachable despite a delay, give them the fastest route to the new gate, and confirm their luggage transfer. With "Voice-to-Voice," AI helps people carry on live conversations across language barriers. Deutsche Telekom is already testing this pattern for customer support. Ad These features are also coming soon to ChatGPT's audio mode , OpenAI suggests. According to the company, "Voice can truly become the primary interface now." GPT-Realtime-2 buys thinking time with stalling tricks The centerpiece of the release is GPT-Realtime-2, which OpenAI says brings reasoning on par with GPT-5. The model is built for live voice interactions where it needs to hold a conversation, think through requests, call tools, and handle interruptions all at once. Ad DEC_D_Incontent-2 On the technical side, the context window jumps from 32,000 to 128,000 tokens, which should support longer and more complex conversations. The model can call multiple tools in parallel and make those actions audible with phrases like "let me check that." Short lead-in sentences called preambles—things like "one moment"—let the user know the system is working. When something goes wrong, the model doesn't just go silent anymore. Instead, it says things like "I'm having trouble with that right now." Ad OpenAI says the model is better at handling specialized terminology, proper names, and medical terms than its predecessor. Tone of voice is more controllable too—calm during problem-solving, empathetic with frustrated users, and upbeat after successful actions. Developers can dial reasoning intensity across five levels: minimal, low, medium, high, and xhigh. The default is "low" to keep latency down for simple requests, while tougher tasks can tap into more compute. On benchmarks, GPT-Realtime-2 outperforms its predecessor, GPT-Realtime-1.5 . At the "high" setting, it hits 96.6 percent accuracy on Big Bench Audio , up from 81.4 percent. On Audio MultiChallenge , which tests instruction-following in multi-turn dialogues, the "xhigh" variant pulls a 48.5 percent average pass rate compared to 34.7 percent. Live translation covers 70+ languages, real-time transcription targets meetings and workflows GPT-Realtime-Translate is a standalone live translation model that handles more than 70 input languages and 13 output languages, according to OpenAI. It preserves meaning while keeping pace with the speaker, even when dealing with context switches, regional accents, and specialized vocabulary. Use cases include customer support, cross-border sales, education, events, and media. The third model, GPT-Realtime-Whisper, is a low-latency streaming transcription model. It transcribes speech as it happens, targeting live captions for meetings, classrooms, broadcasts, and events. Teams can use it to generate notes and summaries while conversations are still going, build voice agents with continuous speech understanding, and spin up faster follow-up workflows for customer support, healthcare, sales, and recruiting. Pricing runs on tokens and minutes All three models are available now through the Realtime API and can be tested in the Playground . GPT-Realtime-2 costs $32 per million audio input tokens ($0.40 for cached input tokens) and $64 per million audio output tokens. GPT-Realtime-Translate runs $0.034 per minute, and GPT-Realtime-Whisper comes in at $0.017 per minute. The Realtime API supports EU data residency for EU-based applications and is covered by OpenAI's enterprise privacy commitments . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: OpenAI