OpenAI의 대규모 초저지연 음성 AI 구현법
OpenAI가 9억 명 이상의 주간 활성 사용자를 위해 대규모 실시간 음성 AI 서비스를 제공하는 방법을 설명하는 기술 블로그 글입니다. 자연스러운 대화를 방해하는 네트워크 지연을 해결하기 위해 기존 WebRTC 스택을 전면 재설계한 배경과 과정을 다룹니다. 표준 WebRTC의 장점을 살리면서도 OpenAI 인프라에 맞춘 새로운 '분할 릴레이 및 트랜시버(Split relay plus transceiver) 아키텍처'를 도입한 기술적 핵심을 공유합니다.
2026년 5월 4일 엔지니어링
OpenAI는 어떻게 대규모로 저지연 음성 AI를 제공하는가 작성: 이 장(Yi Zhang) 및 윌리엄 맥도날드(William McDonald), 기술 스태프
공유하기
음성 AI는 대화가 말의 속도로 진행될 때만 자연스럽게 느껴집니다. 네트워크가 이를 방해하면 사람들은 즉시 그 어색함을 느끼며, 이는 어색한 침묵, 끊기는 듯한 말실수, 혹은 늦게 처리되는 끼어들기(barge-in) 등으로 나타납니다. 이는 ChatGPT 음성 기능, Realtime API를 활용해 개발하는 개발자들, 대화형 워크플로우에서 작동하는 에이전트, 그리고 사용자가 말을 하고 있는 동안에도 오디오를 처리해야 하는 모델에게 매우 중요한 문제입니다.
OpenAI의 규모에서 이는 세 가지 구체적인 요구 사항으로 변환됩니다:
- 9억 명 이상의 주간 활성 사용자를 아우르는 글로벌 도달 범위
- 사용자가 세션이 시작되자마자 말을 시작할 수 있도록 하는 빠른 연결 설정
- 순조로운 대화 템포를 위해 낮고 안정적인 미디어 왕복 시간(RTT), 지터 및 패킷 손실 최소화
실시간 AI 상호작용을 담당하는 OpenAI 팀은 최근 규모가 확장되면서 충돌하기 시작한 세 가지 제약 조건을 해결하기 위해 WebRTC 스택을 재설계했습니다: 세션당 1포트 미디어 종료(termination) 방식은 OpenAI 인프라에 적합하지 않으며, 상태 저장형(Stateful) ICE(Interactive Connectivity Establishment) 및 DTLS(Datagram Transport Layer Security) 세션은 안정적인 소유권을 필요로 하고, 글로벌 라우팅은 첫 번째 홉(first-hop) 지연 시간을 낮게 유지해야 한다는 것입니다.
이 글에서는 클라이언트에 대한 표준 WebRTC 동작은 유지하면서 OpenAI 인프라 내부에서 패킷이 라우팅되는 방식을 변경하기 위해 구축한 '분할 릴레이 및 트랜시버(split relay plus transceiver) 아키텍처'를 자세히 살펴보겠습니다.
WebRTC를 통해 실시간 AI 제품 구축 WebRTC는 브라우저, 모바일 앱 및 서버 간에 저지연 오디오, 비디오 및 데이터를 전송하기 위한 개방형 표준입니다. 주로 P2P(피어 투 피어) 통화와 연관되지만, 대화형 미디어의 까다로운 부분을 표준화하기 때문에 클라이언트-서버 실시간 시스템의 실용적인 기반이 되기도 합니다. 연결 설정 및 NAT(Network Address Translation) 통과를 위한 ICE, 암호화된 전송을 위한 DTLS 및 SRTP(Secure Real-time Transport Protocol), 오디오 압축 및 디코딩을 위한 코덱 협상, 품질 제어를 위한 RTCP(Real-time Transport Control Protocol), 반향 제거 및 지터 버퍼링과 같은 클라이언트 측 기능 등이 여기에 포함됩니다.
이러한 표준화는 AI 제품에 매우 중요합니다. WebRTC가 없다면 모든 클라이언트는 NAT를 통과하는 연결을 설정하고, 미디어를 암호화하며, 코덱(전송 및 압축 해제를 위해 선택된 인코더-디코더)을 협상하고, 변화하는 네트워크 상태에 적응하는 방법을 각기 다르게 해결해야 할 것입니다. WebRTC를 사용하면 이미 브라우저와 모바일 플랫폼에 구현된 프로토콜 스택을 기반으로 구축할 수 있으며, 우리는 실시간 미디어를 모델에 연결하는 인프라에만 집중할 수 있습니다.
또한 성숙한 오픈 소스 구현과 브라우저, 모바일 앱 및 서버 간의 상호 운용성을 유지하는 표준 작업을 포함하여 WebRTC 생태계 자체를 기반으로 구축합니다. 저스틴 우베르티(Justin Uberti, WebRTC의 원래 설계자 중 한 명)와 션 듀부아(Sean DuBois, Pion의 창시자이자 유지보수자)의 기초적인 작업 덕분에 우리 같은 팀은 저수준 전송, 암호화 및 혼잡 제어 동작을 처음부터 새로 만들 필요 없이, 이미 검증된 미디어 인프라를 기반으로 구축할 수 있었습니다. 다행히 저스틴과 션은 현재 OpenAI의 동료로서 WebRTC와 실시간 AI를 더 긴밀하게 결합하는 방법을 안내하고 있습니다.
AI에게 가장 중요한 특성은 오디오가 지속적인 스트림으로 도착한다는 것입니다. 음성 에이전트는 전체 오디오 업로드가 끝날 때까지 기다리는 대신, 사용자가 여전히 말을 하고 있는 동안 전사, 추론, 도구 호출 또는 음성 생성을 시작할 수 있습니다. 이것이 자연스러운 대화형 시스템과 PTT(Push-to-Talk) 방식처럼 느껴지는 시스템을 구분 짓는 차이점입니다.
미디어 아키텍처 선택 WebRTC를 선택한 후의 다음 질문은 이를 어디에서 종료(termination)할 것인가(예: 엣지에서 WebRTC 연결을 수락하고 관리할 위치), 그리고 해당 세션을 추론 백엔드에 어떻게 연결할 것인가였습니다. 종료 위치가 중요한 이유는 이것이 실시간 세션 상태, 미디어 전송, 라우팅, 지연 시간 및 장애 격리를 처리하는 방법을 결정하기 때문입니다.
SFU(선택적 전달 유닛, Selective Forwarding Unit) 또는...
원문 보기 (영어)
OpenAI, Google, and Microsoft Back Bill to Fund ‘AI Literacy’ in Schools
[요약 오류] OpenAI, Google, and Microsoft Back Bill to Fund ‘AI Literacy’ in Schools
곧 만료될 OpenAI API 크레딧 1만 달러, 뭘 만들어야 할까요?
최근 폐업한 스타트업의 전 CTO가 연말 만료 예정인 잔여 OpenAI API 크레딧 1만 달러(약 1,300만 원)의 활용법을 레딧 커뮤니티에 문의했습니다. 작성자는 이미 ChatGPT Pro를 구독 중이고 현재 주 업무에 Anthropic API를 사용하고 있어 해당 크레딧이 방치될 처지입니다. 이에 사람들에게 크레딧 낭비를 막기 위해 시도해 볼 만한 흥미로운 프로젝트나 실험 아이디어를 추천받고 있습니다.