오픈AI, 실시간 음성 지능 API 새 기능 공개
오픈AI가 개발자가 애플리케이션 내에서 대화, 번역, 전사 기능을 구현할 수 있도록 돕는 새로운 실시간 음성 지능 기능들을 API에 추가했습니다. 이번 업데이트에는 GPT-5 수준의 추론 능력을 갖춘 'GPT-Realtime-2', 실시간 다국어 번역을 제공하는 'GPT-Realtime-Translate', 그리고 실시간 음성-텍스트 변환 기능인 'GPT-Realtime-Whisper'가 포함되었습니다. 이러한 기능들은 고객 서비스, 교육, 미디어 등 다양한 산업군에서 활용될 전망이며, 오픈AI는 스팸 및 사기와 같은 악용을 막기 위해 강력한 가드레일도 함께 적용했습니다.
오픈AI는 목요일(현지시간)에 사용자와 대화하고, 대화 내용을 전사하며, 통번역할 수 있는 앱을 개발자들이 쉽게 만들 수 있도록 돕는 여러 가지 새로운 음성 지능 기능을 API에 추가한다고 밝혔다.
회사의 새로운 음성 모델인 'GPT-Realtime-2'는 사용자와 실감 나게 대화할 수 있는 사실적인 음성 시뮬레이션을 만들기 위해 개발되었다. 그러나 이전 버전(GPT-Realtime-1.5)과 달리, 이번 모델은 사용자의 더 복잡한 요청을 처리하기 위해 설계된 GPT-5 수준의 추론(reasoning) 능력을 갖추고 있다고 오픈AI는 설명했다.
또한 오픈AI는 'GPT-Realtime-Translate'도 함께 출시했다. 이름에서 알 수 있듯 이 기능은 대화 중인 사용자의 속도에 맞춰 실시간 통번역 서비스를 제공하도록 설계되었다. 이 기능은 70개 이상의 입력 언어(즉, 이해할 수 있는 언어)와 13개의 출력 언어(사용자에게 전달되는 언어)를 지원한다.
마지막으로 회사는 새로운 전사 기능인 'GPT-Realtime-Whisper'도 출시했다. 이 기능은 대화가 진행되는 동안 발생하는 상호작용을 실시간으로 캡처하여 음성을 텍스트로 변환해 주는 라이브 STT(Speech-to-Text) 기능을 제공한다.
오픈AI는 "오늘 출시하는 모델들은 실시간 오디오를 단순한 주고받기에서 벗어나, 대화가 진행됨에 따라 실제로 작업을 수행하는 음성 인터페이스(듣고, 추론하고, 번역하고, 전사하고, 행동하는)로 발전시킨다"고 밝혔다.
이번 업데이트는 누구에게 유용할까? 고객 서비스 역량을 확장하고자 하는 기업들이 가장 명확한 타깃이다. 그러나 오픈AI는 새로운 기능이 교육, 미디어, 이벤트 및 크리에이터 플랫폼 등 다양한 분야에 도움이 될 것이라고 덧붙였다.
기업 관점에서 이러한 도구들이 매우 유용해 보이지만, 악용될 가능성도 충분히 존재한다. 이에 대해 오픈AI는 새로운 기능이 스팸, 사기 또는 기타 형태의 온라인 남용을 만드는 데 사용되는 것을 막기 위해 가드레일(Guardrail)을 구축했다고 밝혔다. 회사는 "우리의 유해 콘텐츠 가이드라인을 위반하는 것으로 감지되면 대화가 중단될 수 있도록 특정 트리거가 시스템에 내장되어 있다"고 설명했다.
모든 새로운 음성 모델은 오픈AI의 Realtime API에 포함되어 있다. Translate와 Whisper는 분당 요금제가 적용되며, GPT-Realtime-2는 토큰 사용량 기준으로 요금이 청구된다.