메뉴
BL
TechCrunch AI 23일 전

오픈AI, 실시간 음성 지능 API 새 기능 공개

IMP
8/10
핵심 요약

오픈AI가 개발자가 애플리케이션 내에서 대화, 번역, 전사 기능을 구현할 수 있도록 돕는 새로운 실시간 음성 지능 기능들을 API에 추가했습니다. 이번 업데이트에는 GPT-5 수준의 추론 능력을 갖춘 'GPT-Realtime-2', 실시간 다국어 번역을 제공하는 'GPT-Realtime-Translate', 그리고 실시간 음성-텍스트 변환 기능인 'GPT-Realtime-Whisper'가 포함되었습니다. 이러한 기능들은 고객 서비스, 교육, 미디어 등 다양한 산업군에서 활용될 전망이며, 오픈AI는 스팸 및 사기와 같은 악용을 막기 위해 강력한 가드레일도 함께 적용했습니다.

번역된 본문

오픈AI는 목요일(현지시간)에 사용자와 대화하고, 대화 내용을 전사하며, 통번역할 수 있는 앱을 개발자들이 쉽게 만들 수 있도록 돕는 여러 가지 새로운 음성 지능 기능을 API에 추가한다고 밝혔다.

회사의 새로운 음성 모델인 'GPT-Realtime-2'는 사용자와 실감 나게 대화할 수 있는 사실적인 음성 시뮬레이션을 만들기 위해 개발되었다. 그러나 이전 버전(GPT-Realtime-1.5)과 달리, 이번 모델은 사용자의 더 복잡한 요청을 처리하기 위해 설계된 GPT-5 수준의 추론(reasoning) 능력을 갖추고 있다고 오픈AI는 설명했다.

또한 오픈AI는 'GPT-Realtime-Translate'도 함께 출시했다. 이름에서 알 수 있듯 이 기능은 대화 중인 사용자의 속도에 맞춰 실시간 통번역 서비스를 제공하도록 설계되었다. 이 기능은 70개 이상의 입력 언어(즉, 이해할 수 있는 언어)와 13개의 출력 언어(사용자에게 전달되는 언어)를 지원한다.

마지막으로 회사는 새로운 전사 기능인 'GPT-Realtime-Whisper'도 출시했다. 이 기능은 대화가 진행되는 동안 발생하는 상호작용을 실시간으로 캡처하여 음성을 텍스트로 변환해 주는 라이브 STT(Speech-to-Text) 기능을 제공한다.

오픈AI는 "오늘 출시하는 모델들은 실시간 오디오를 단순한 주고받기에서 벗어나, 대화가 진행됨에 따라 실제로 작업을 수행하는 음성 인터페이스(듣고, 추론하고, 번역하고, 전사하고, 행동하는)로 발전시킨다"고 밝혔다.

이번 업데이트는 누구에게 유용할까? 고객 서비스 역량을 확장하고자 하는 기업들이 가장 명확한 타깃이다. 그러나 오픈AI는 새로운 기능이 교육, 미디어, 이벤트 및 크리에이터 플랫폼 등 다양한 분야에 도움이 될 것이라고 덧붙였다.

기업 관점에서 이러한 도구들이 매우 유용해 보이지만, 악용될 가능성도 충분히 존재한다. 이에 대해 오픈AI는 새로운 기능이 스팸, 사기 또는 기타 형태의 온라인 남용을 만드는 데 사용되는 것을 막기 위해 가드레일(Guardrail)을 구축했다고 밝혔다. 회사는 "우리의 유해 콘텐츠 가이드라인을 위반하는 것으로 감지되면 대화가 중단될 수 있도록 특정 트리거가 시스템에 내장되어 있다"고 설명했다.

모든 새로운 음성 모델은 오픈AI의 Realtime API에 포함되어 있다. Translate와 Whisper는 분당 요금제가 적용되며, GPT-Realtime-2는 토큰 사용량 기준으로 요금이 청구된다.

원문 보기
원문 보기 (영어)
OpenAI said Thursday that its API will now include a number of new voice intelligence features designed to help developers create apps that can talk, transcribe, and translate conversations with users. The company's new GPT‑Realtime‑2 is another voice model, built to create a realistic vocal simulation that can converse with users. However, unlike its predecessor (GPT-Realtime-1.5) this one is built with GPT‑5‑class reasoning that OpenAI says was created to deal with more complicated requests from users. The company is also launching GPT‑Realtime‑Translate, which, just as it sounds, is designed to provide real-time translation services that "keep pace" with the user, conversationally. The feature includes more than 70 input languages (that is, the languages that it can comprehend) and 13 output languages (the languages it relays to the speaker). Finally, the company has also launched a new transcription capability, GPT-Realtime-Whisper, which gives users live speech-to-text capabilities that are captured as interactions occur. "Together, the models we are launching move real-time audio from simple call-and-response toward voice interfaces that can actually do work: listen, reason, translate, transcribe, and take action as a conversation unfolds," the company said. Who will these updates be good for? Companies that want to expand customer service capabilities are an obvious target. However, OpenAI also notes that its new features will assist with a wide array of areas, including education, media, events, and creator platforms, among others. As useful as these tools seem from an enterprise perspective, it also seems plausible that they could be misused. The company said it has built guardrails to stop its new features from being abused to create spam, fraud, or other forms of online abuse. Certain triggers have been embedded in the system so that "conversations can be halted if they are detected as violating our harmful content guidelines," OpenAI said. Techcrunch event This Week Only: Buy one pass, get the second at 50% off Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register before May 8 to bring a +1 at half the cost. This Week Only: Buy one pass, get the second at 50% off Your next round. Your next hire. Your next breakout opportunity. Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register before May 8 to bring a +1 at half the cost. San Francisco, CA | October 13-15, 2026 REGISTER NOW All of the new voice models are included in OpenAI’s Realtime API . Translate and Whisper are billed by the minute, while GPT-Realtime-2 is billed by token consumption. Topics AI , gpt , OpenAI When you purchase through links in our articles, we may earn a small commission . This doesn’t affect our editorial independence. Lucas Ropek Senior Writer, TechCrunch Lucas is a senior writer at TechCrunch, where he covers artificial intelligence, consumer tech, and startups. He previously covered AI and cybersecurity at Gizmodo. You can contact Lucas by emailing lucas.ropek@techcrunch.com. View Bio May 27 Athens, Greece StrictlyVC Athens is up next. Hear unfiltered insights straight from Europe’s tech leaders and connect with the people shaping what’s ahead. Lock in your spot before it’s gone. REGISTER NOW Most Popular Hackers deface school login pages after claiming another Instructure hack Lorenzo Franceschi-Bicchierai Zack Whittaker Hackers steal students' data during breach at education tech giant Instructure Lorenzo Franceschi-Bicchierai As workers worry about AI, Nvidia's Jensen Huang says AI is ‘creating an enormous number of jobs' Lucas Ropek Anthropic and OpenAI are both launching joint ventures for enterprise AI services Russell Brandom Ouster's new color lidar is coming to replace cameras Sean O'Kane This tiny, magnetic e-reader could stop you from doomscrolling Amanda Silberling Uber wants to turn its millions of drivers into a sensor grid for self-driving companies Connie Loizos