실시간 음성 앱 혁신, 세 가지 오디오 API 공개
사람이 말하는 동시에 추론, 번역, 전사가 가능한 차세대 실시간 음성 모델 3종이 API를 통해 공개되었습니다. 개발자들은 이 모델을 활용하여 단순한 대화를 넘어 실시간으로 작업을 수행하고 도구를 활용하는 지능형 음성 인터페이스를 구축할 수 있게 되었습니다.
2026년 5월 7일 제품 발표 API의 새로운 모델로 음성 지능 발전시키기 사람이 말하는 동시에 추론하고, 번역하고, 전사할 수 있는 차세대 실시간 음성 모델.
로딩 중… 공유
우리는 개발자를 위한 새로운 수준의 음성 앱을 가능하게 하는 세 가지 오디오 모델을 API에 도입합니다. 이 모델들을 통해 개발자들은 더욱 자연스럽고 지능적으로 응답하며 실시간으로 행동하는 음성 경험을 구축할 수 있습니다.
GPT‑Realtime‑2: 더 복잡한 요청을 처리하고 대화를 자연스럽게 이어갈 수 있는, GPT-5 수준의 추론 능력을 갖춘 최초의 음성 모델입니다. GPT‑Realtime‑Translate: 화자의 말하는 속도에 맞춰 70개 이상의 입력 언어를 13개의 출력 언어로 번역하는 새로운 실시간 번역 모델입니다. GPT‑Realtime‑Whisper: 화자가 말하는 즉시 음성을 텍스트로 변환해 주는 새로운 스트리밍 음성 인식(STT) 모델입니다.
GPT-Realtime-2 사용해 보기 세션을 시작한 후, GPT-Realtime-2와 자연스럽게 대화해 보세요. 세션 시작
무엇을 물어볼 수 있나요? 세션을 시작한 후 다음 중 하나를 시도해 보세요:
"오늘 밤 갑자기 저녁 식사 모임을 갖게 되었어요. 시간은 30분밖에 없고, 채식주의자 친구 두 명, 버섯을 싫어하는 친구 한 명, 그리고 아주 작은 주방이 있어요. 간단한 메뉴를 짜주세요." "일본에서 열리는 라이브 행사에 참석객들을 환영해야 해요. 진행자가 특별한 행사를 시작할 때처럼 따뜻하고 자연스러운 일본어로 환영 인사를 해주세요." "내 주문 번호는 Orbit-742Q야. 번호가 맞는지 확인할 수 있게 또렷하게 다시 말해줘." "팀원들에게 런칭 목표를 달성했다고 말하는 연습을 도와줘. 먼저 차분하고 확신에 찬 어조로 말해보고, 그다음엔 더 흥분된 어조로 말해줘." "로드트립을 위한 퀴즈 문제를 낼 건데, 듣기엔 아주 쉬워 보이지만 함정이 있는 질문 세 개를 내고, 각각의 정답을 한 문장으로 설명해 줘."
이 데모는 시간 제한이 있습니다. 이를 사용함으로써 OpenAI의 이용 약관에 동의하고 개인정보 보호정책을 인지하는 것으로 간주합니다.
음성은 사람들이 소프트웨어를 사용하는 가장 자연스러운 방법 중 하나가 되고 있습니다. 운전 중에 도움을 요청하거나, 공항을 걸어 다니며 여행 일정을 변경하거나, 선호하는 언어로 고객 지원을 받거나, 타이핑을 멈출 필요 없이 작업을 계속할 수 있게 해줍니다. 하지만 유용한 음성 제품을 만드는 데는 빠른 턴테이킹이나 자연스러운 목소리 그 이상이 필요합니다. 음성 에이전트는 사용자의 의도를 파악하고, 문맥을 유지하며, 요청이 바뀔 때 유연하게 대처하고, 대화가 진행되는 동안 도구를 사용하며, 상황에 맞는 적절한 방식으로 응답할 수 있어야 합니다.
우리가 출시하는 모델들은 실시간 오디오를 단순한 주고받기에서 벗어나, 대화가 진행됨에 따라 실제로 작업을 수행하는 음성 인터페이스(듣고, 추론하고, 번역하고, 전사하며, 행동하는)로 발전시킵니다.
사람과 제품 사이의 인터페이스로서의 음성 음성이 소프트웨어를 사용하는 더욱 자연스러운 방법이 됨에 따라, 개발자들이 음성 AI의 세 가지 신흥 패턴을 중심으로 구축하는 것을 보고 있습니다.
음성-행동(Voice-to-action): 사람이 필요한 것을 설명하면 시스템이 요청을 추론하고 도구를 사용하여 작업을 완료하는 방식입니다. 예를 들어, 질로우(Zillow)는 "나의 구매력 한도 내에서 집을 찾아주고, 번화가는 피해주고, 토요일에 투어 일정을 잡아줘"와 같은 요청을 듣고 추론하며 실행하는 어시스턴트를 구축하고 있습니다.
시스템-음성(Systems-to-voice): 소프트웨어가 컨텍스트를 실시간 음성 안내로 변환하는 방식입니다. 예를 들어, 여행 앱이 여행객에게 "도착 항공편이 지연되었지만, 아직 환승은 가능합니다. 새로운 탑승구를 찾았고, 터미널 내에서 가장 빠른 경로를 매핑했으며, 수하물도 정상적으로 환승될 예정입니다."라고 미리 말해줄 수 있습니다.
음성-음성(Voice-to-voice): AI가 언어, 작업 또는 변화하는 맥락에 걸쳐 실시간 대화를 이어갈 수 있도록 돕는 방식입니다. 예를 들어, 도이치 텔레콤(Deutsche Telekom)은 고객이 가장 편안한 언어로 말할 수 있고 모델이 대화를 실시간으로 번역하는 음성 고객 지원 경험을 구축하고 있습니다.
이러한 패턴들은 서로 결합되어 작동할 수도 있습니다. 프라이스라인(Priceline)은 여행객들이 음성으로 전체 여정을 관리할 수 있는 미래를 향해 나아가고 있습니다. 대화형으로 항공편과 호텔을 검색하고, 항공편 지연 후 호텔 예약을 조정하거나 TSA 보안 검색 대기 시간에 대한 실시간 업데이트를 받는 등의 변경 사항을 처리합니다.