메뉴
BL
r/OpenAI 23일 전

실시간 음성 앱 혁신, 세 가지 오디오 API 공개

IMP
9/10
핵심 요약

사람이 말하는 동시에 추론, 번역, 전사가 가능한 차세대 실시간 음성 모델 3종이 API를 통해 공개되었습니다. 개발자들은 이 모델을 활용하여 단순한 대화를 넘어 실시간으로 작업을 수행하고 도구를 활용하는 지능형 음성 인터페이스를 구축할 수 있게 되었습니다.

번역된 본문

2026년 5월 7일 제품 발표 API의 새로운 모델로 음성 지능 발전시키기 사람이 말하는 동시에 추론하고, 번역하고, 전사할 수 있는 차세대 실시간 음성 모델.

로딩 중… 공유

우리는 개발자를 위한 새로운 수준의 음성 앱을 가능하게 하는 세 가지 오디오 모델을 API에 도입합니다. 이 모델들을 통해 개발자들은 더욱 자연스럽고 지능적으로 응답하며 실시간으로 행동하는 음성 경험을 구축할 수 있습니다.

GPT‑Realtime‑2: 더 복잡한 요청을 처리하고 대화를 자연스럽게 이어갈 수 있는, GPT-5 수준의 추론 능력을 갖춘 최초의 음성 모델입니다. GPT‑Realtime‑Translate: 화자의 말하는 속도에 맞춰 70개 이상의 입력 언어를 13개의 출력 언어로 번역하는 새로운 실시간 번역 모델입니다. GPT‑Realtime‑Whisper: 화자가 말하는 즉시 음성을 텍스트로 변환해 주는 새로운 스트리밍 음성 인식(STT) 모델입니다.

GPT-Realtime-2 사용해 보기 세션을 시작한 후, GPT-Realtime-2와 자연스럽게 대화해 보세요. 세션 시작

무엇을 물어볼 수 있나요? 세션을 시작한 후 다음 중 하나를 시도해 보세요:

"오늘 밤 갑자기 저녁 식사 모임을 갖게 되었어요. 시간은 30분밖에 없고, 채식주의자 친구 두 명, 버섯을 싫어하는 친구 한 명, 그리고 아주 작은 주방이 있어요. 간단한 메뉴를 짜주세요." "일본에서 열리는 라이브 행사에 참석객들을 환영해야 해요. 진행자가 특별한 행사를 시작할 때처럼 따뜻하고 자연스러운 일본어로 환영 인사를 해주세요." "내 주문 번호는 Orbit-742Q야. 번호가 맞는지 확인할 수 있게 또렷하게 다시 말해줘." "팀원들에게 런칭 목표를 달성했다고 말하는 연습을 도와줘. 먼저 차분하고 확신에 찬 어조로 말해보고, 그다음엔 더 흥분된 어조로 말해줘." "로드트립을 위한 퀴즈 문제를 낼 건데, 듣기엔 아주 쉬워 보이지만 함정이 있는 질문 세 개를 내고, 각각의 정답을 한 문장으로 설명해 줘."

이 데모는 시간 제한이 있습니다. 이를 사용함으로써 OpenAI의 이용 약관에 동의하고 개인정보 보호정책을 인지하는 것으로 간주합니다.

음성은 사람들이 소프트웨어를 사용하는 가장 자연스러운 방법 중 하나가 되고 있습니다. 운전 중에 도움을 요청하거나, 공항을 걸어 다니며 여행 일정을 변경하거나, 선호하는 언어로 고객 지원을 받거나, 타이핑을 멈출 필요 없이 작업을 계속할 수 있게 해줍니다. 하지만 유용한 음성 제품을 만드는 데는 빠른 턴테이킹이나 자연스러운 목소리 그 이상이 필요합니다. 음성 에이전트는 사용자의 의도를 파악하고, 문맥을 유지하며, 요청이 바뀔 때 유연하게 대처하고, 대화가 진행되는 동안 도구를 사용하며, 상황에 맞는 적절한 방식으로 응답할 수 있어야 합니다.

우리가 출시하는 모델들은 실시간 오디오를 단순한 주고받기에서 벗어나, 대화가 진행됨에 따라 실제로 작업을 수행하는 음성 인터페이스(듣고, 추론하고, 번역하고, 전사하며, 행동하는)로 발전시킵니다.

사람과 제품 사이의 인터페이스로서의 음성 음성이 소프트웨어를 사용하는 더욱 자연스러운 방법이 됨에 따라, 개발자들이 음성 AI의 세 가지 신흥 패턴을 중심으로 구축하는 것을 보고 있습니다.

음성-행동(Voice-to-action): 사람이 필요한 것을 설명하면 시스템이 요청을 추론하고 도구를 사용하여 작업을 완료하는 방식입니다. 예를 들어, 질로우(Zillow)는 "나의 구매력 한도 내에서 집을 찾아주고, 번화가는 피해주고, 토요일에 투어 일정을 잡아줘"와 같은 요청을 듣고 추론하며 실행하는 어시스턴트를 구축하고 있습니다.

시스템-음성(Systems-to-voice): 소프트웨어가 컨텍스트를 실시간 음성 안내로 변환하는 방식입니다. 예를 들어, 여행 앱이 여행객에게 "도착 항공편이 지연되었지만, 아직 환승은 가능합니다. 새로운 탑승구를 찾았고, 터미널 내에서 가장 빠른 경로를 매핑했으며, 수하물도 정상적으로 환승될 예정입니다."라고 미리 말해줄 수 있습니다.

음성-음성(Voice-to-voice): AI가 언어, 작업 또는 변화하는 맥락에 걸쳐 실시간 대화를 이어갈 수 있도록 돕는 방식입니다. 예를 들어, 도이치 텔레콤(Deutsche Telekom)은 고객이 가장 편안한 언어로 말할 수 있고 모델이 대화를 실시간으로 번역하는 음성 고객 지원 경험을 구축하고 있습니다.

이러한 패턴들은 서로 결합되어 작동할 수도 있습니다. 프라이스라인(Priceline)은 여행객들이 음성으로 전체 여정을 관리할 수 있는 미래를 향해 나아가고 있습니다. 대화형으로 항공편과 호텔을 검색하고, 항공편 지연 후 호텔 예약을 조정하거나 TSA 보안 검색 대기 시간에 대한 실시간 업데이트를 받는 등의 변경 사항을 처리합니다.

원문 보기
원문 보기 (영어)
May 7, 2026 Product Release Advancing voice intelligence with new models in the API A new generation of realtime voice models that can reason, translate, and transcribe as people speak. Loading… Share We’re introducing three audio models in the API that unlock a new class of voice apps for developers. With these models, developers can build voice experiences that feel more natural, respond more intelligently, and take action in real time: GPT‑Realtime‑2 , our first voice model with GPT‑5‑class reasoning that can handle harder requests and carry the conversation forward naturally. GPT‑Realtime‑Translate , a new live translation model that translates speech from 70+ input languages into 13 output languages while keeping pace with the speaker. GPT‑Realtime‑Whisper , a new streaming speech-to-text that transcribes speech live as the speaker talks. Try GPT-Realtime-2 Start the session, then talk naturally with GPT-Realtime-2. Start session What can I ask? After you start the session, try saying one of these: I’m hosting a last-minute dinner tonight. I have 30 minutes, two vegetarian friends, one mushroom-hater, and a tiny kitchen. Help me plan a simple menu. I’m welcoming guests to a live event in Japan. Say a warm, natural welcome in Japanese — like a host kicking off something special. My order number is Orbit-742Q. Repeat it back clearly so I can confirm it’s right. Help me practice telling my team we hit our launch milestone. First say it with quiet confidence, then with more excitement. I’m planning trivia for a road trip. Give me three trick questions that sound deceivingly simple, then explain each answer in one sentence. This demo is time-limited. By using it, you agree to OpenAI's Terms and acknowledge our Privacy Policy . Voice is becoming one of the most natural ways for people to use software. It lets someone ask for help while driving, change a travel plan while walking through an airport, get support in their preferred language, or move through a task without stopping to type. But building useful voice products takes more than fast turn-taking or a natural-sounding voice. A voice agent needs to understand what someone means, keep track of context, recover when a request changes, use tools while the conversation continues, and respond in a way that feels appropriate to the moment. Together, the models we are launching move realtime audio from simple call-and-response toward voice interfaces that can actually do work: listen, reason, translate, transcribe, and take action as a conversation unfolds. Voice as an interface between people and products As voice becomes a more natural way to use software, we’re seeing developers build around three emerging patterns in voice AI: Voice-to-action, where people can describe what they need and the system can reason through the request, use tools, and complete the task. For example, Zillow is building an assistant that can listen, reason, and act on requests like: “find me homes within my BuyAbility, avoid busy streets, and schedule a tour for Saturday.” Systems-to-voice, where software can turn context into live spoken guidance. For example, a travel app could proactively tell a traveler: “Your inbound flight is delayed, but you can still make your connection. I found the new gate, mapped the fastest route through the terminal, and your bag is still expected to transfer.” Voice-to-voice, where AI can help live conversations continue across languages, tasks, or changing context. For example, Deutsche Telekom is building voice support experiences where customers can speak in the language they’re most comfortable using, while the model translates the conversation in real time. These patterns can also work together. Priceline is working toward a future where travelers can manage entire trips by voice: searching for flights and hotels conversationally, handling changes like adjusting a hotel reservation after a flight delay or getting real-time updates on TSA wait times, and translating conversations once travelers are on the ground. Realtime voice: helping voice models reason and take action GPT‑Realtime‑2 is built for live voice interactions where the model keeps the conversation moving while it reasons through a request, calls tools, handles corrections or interruptions, and responds in a way that fits the moment. Preambles: Developers can enable short phrases before a main response, like “let me check that” or “one moment while I look into it,” so users know the agent is working on the request. Parallel tool calls and tool transparency: The model can call multiple tools at once and make those actions audible with phrases like “checking your calendar” or “looking that up now,” helping agents stay responsive while completing tasks. Stronger recovery behavior: The model can recover more gracefully by saying things like “I’m having trouble with that right now,” instead of failing silently or breaking the conversation. Longer context for agentic workflows: We’re increasing the context window from 32K to 128K to support longer, more coherent sessions and more complex task flows. Stronger domain understanding: The model better retains specialized terminology, proper nouns, healthcare terms, and other vocabulary that matters in production settings. More controllable tone and delivery: The model can better adjust its tone—speaking calmly while resolving an issue, empathetically when a user is frustrated, or upbeat when confirming a successful action. Adjustable reasoning effort: Developers can now select from minimal, low, medium, high, and xhigh reasoning levels, with low as the default , balancing lower latency for straightforward interactions with more deliberate reasoning for complex requests. The gains show up on audio evals that map closely to production voice agents: GPT‑Realtime‑2 (high) scores 15.2% higher on Big Bench Audio for audio intelligence than GPT‑Realtime‑1.5. GPT‑Realtime‑2 (xhigh) scores 13.8% higher on Audio MultiChallenge for instruction following, improving over GPT‑Realtime‑1.5 and showing stronger reasoning, context management, and control in live conversations. The magic of GPT‑Realtime‑2 shows up across a variety of different use cases: Loading realtime example…