xAI, 엔터프라이즈 음성 개발자 겨냥한 Grok 오디오 API 공개
일론 머스크의 AI 기업 xAI가 기존 음성 시장을 겨냥해 음성을 텍스트로 변환하는 STT와 텍스트를 음성으로 변환하는 TTS, 두 가지 독립적인 오디오 API를 전격 출시했습니다. 특히 Grok STT API는 경쟁사 대비 최대 3~4배 낮은 오류율을 기록하며 뛰어난 정확도를 입증했으며, TTS API는 감정 표현과 세밀한 발화 제어 기능을 제공하는 것이 특징입니다. 이를 통해 기업 개발자들은 고도화된 회의록 자동 작성, 음성 비서, 콜센터 분석 등의 서비스를 저렴하고 효율적으로 구축할 수 있게 되었습니다.
에디터 추천 | 에이전트 AI 기술 | 인공지능 | 언어 모델 | 오디오 언어 모델 | 신규 릴리즈 | 직원 | TTS | 음성 AI
일론 머스크의 AI 기업 xAI가 두 가지 독립형 오디오 API인 음성-텍스트 변환(STT) API와 텍스트-음성 변환(TTS) API를 출시했습니다. 두 API는 모바일 앱, 테슬라 차량, 스타링크 고객 지원 등에서 Grok Voice를 구동하는 것과 동일한 인프라를 기반으로 구축되었습니다. 이번 릴리즈를 통해 xAI는 현재 ElevenLabs, Deepgram, AssemblyAI가 점유하고 있는 경쟁적인 음성 API 시장에 본격적으로 진출했습니다.
Grok 음성-텍스트 변환(STT) API란? 음성-텍스트 변환(Speech-to-Text)은 음성 오디오를 텍스트로 변환하는 기술입니다. 회의록 작성 도구, 음성 에이전트, 콜센터 분석, 접근성 기능을 개발하는 개발자들에게 STT API는 핵심 구성 요소입니다. 처음부터 개발할 필요 없이, 개발자는 엔드포인트를 호출하여 오디오를 전송하고 구조화된 트랜스크립트(스크립트)를 반환받을 수 있습니다.
현재 일반 이용이 가능한 Grok STT API는 배치(Batch) 및 스트리밍(Streaming) 모드를 모두 지원하며 25개 언어의 트랜스크립션을 제공합니다. 배치 모드는 사전 녹음된 오디오 파일 처리를 위해 설계되었으며, 스트리밍 모드는 오디오가 캡처되는 동안 실시간 트랜스크립션을 가능하게 합니다. 가격 정책은 직관적입니다. 배치 모드는 시간당 0.10달러, 스트리밍 모드는 시간당 0.20달러로 책정되었습니다.
이 API는 단어 수준 타임스탬프, 화자 분리(Speaker diarization), 멀티채널 지원을 포함하며, 숫자, 날짜, 통화 등을 올바르게 처리하는 지능형 역텍스트 정규화(Inverse Text Normalization) 기능도 함께 제공합니다. 또한 12개의 오디오 형식을 지원합니다. 컨테이너 형식 9가지(WAV, MP3, OGG, Opus, FLAC, AAC, MP4, M4A, MKV)와 원시(Raw) 형식 3가지(PCM, µ-law, A-law)를 수용하며, 요청당 최대 파일 크기는 500MB입니다.
화자 분리는 오디오를 개별 화자별로 분리하는 과정으로, '누가 무슨 말을 했는지'를 식별해 줍니다. 이는 회의, 인터뷰 또는 고객 통화와 같은 다자간 녹음에 매우 중요한 기능입니다. 단어 수준 타임스탬프는 트랜스크립트의 각 단어에 정확한 시작 및 종료 시간을 할당하여 자막 생성, 검색 가능한 녹음, 법률 문서화 등의 활용 사례를 가능하게 합니다. 역텍스트 정규화는 "십만 육천칠백구십팔 달러 십오 센트"와 같은 구어체 형태를 읽을 수 있는 구조화된 출력인 "$167,983.15"로 변환해 줍니다.
벤치마크 성능 xAI 연구팀은 정확도에 대해 강력한 주장을 하고 있습니다. 전화 통화 엔티티 인식(이름, 계정 번호, 날짜) 부문에서 Grok STT는 5.0%의 오류율을 기록했으며, 이는 ElevenLabs(12.0%), Deepgram(13.5%), AssemblyAI(21.3%)와 비교하여 상당한 격차입니다. 이러한 성능이 실제 프로덕션 환경에서도 유지된다면 매우 고무적인 결과입니다. 비디오 및 팟캐스트 트랜스크립션에서는 Grok과 ElevenLabs가 2.4%의 동일한 오류율을 기록했으며, Deepgram(3.0%)과 AssemblyAI(3.2%)가 그 뒤를 이었습니다. xAI 팀은 또한 일반 오디오 벤치마크에서 6.9%의 단어 오류율을 보고했습니다.
Grok 텍스트-음성 변환(TTS) API란? 텍스트-음성 변환(Text-to-Speech)은 작성된 텍스트를 음성 오디오로 변환합니다. 개발자들은 TTS API를 사용하여 음성 비서, 텍스트 낭독 기능, 팟캐스트 생성, IVR(대화형 음성 응답) 시스템 및 접근성 도구를 구동합니다. Grok TTS API는 빠르고 자연스러운 음성 합성을 제공하며, 음성 태그를 통해 세밀한 제어가 가능합니다. 가격은 100만 자당 4.20달러입니다.
이 API는 단일 REST 요청당 최대 15,000자의 텍스트를 처리합니다. 더 긴 콘텐츠의 경우 텍스트 길이 제한이 없으며 전체 입력이 처리되기 전에 오디오 반환을 시작하는 WebSocket 스트리밍 엔드포인트를 사용할 수 있습니다. API는 20개 언어와 Ara, Eve, Leo, Rex, Sal의 5가지 독특한 음성을 지원하며, 'Eve'가 기본값으로 설정되어 있습니다.
음성 선택 외에도 개발자는 인라인(Inline) 및 래핑(Wrapping) 음성 태그를 삽입하여 발화 방식을 제어할 수 있습니다. 여기에는 laugh, sigh, breath와 같은 인라인 태그와