#TTS

알리바바 '큐원 오디오 3.0', TTS 리더보드 1위 달성

알리바바의 새로운 텍스트 음성 변환(TTS) 모델인 Qwen-Audio-3.0-TTS-Plus가 인공지능 벤치마크 플랫폼의 오디오 리더보드에서 경쟁 모델들을 제치고 1위를 차지했습니다. 이 모델은 16개 국어를 지원하며, 태그를 통한 감정 표현과 뛰어난 목소리 복제 능력을 자랑하지만 생성 속도 측면에서는 경쟁사에 다소 뒤처진다는 특징이 있습니다.

알리바바 TTS 음성-합성

MarkTechPost • 59일 전

IMP 8

2026년 최고의 TTS 모델 벤치마크 비교

2026년 텍스트 음성 변환(TTS) 기술이 급격히 발전함에 따라, 주요 상업 및 오픈소스 TTS 모델들의 성능을 종합적으로 비교한 가이드가 공개되었습니다. 이 글은 엔지니어들이 실무에 적합한 모델을 선택할 수 있도록 음질, 지연 시간, 비용, 언어 지원 및 라이선스를 기준으로 모델들을 순위화하여 평가합니다. 관련 엔지니어에게 최신 TTS 모델의 동향과 기술적 장단점을 파악하는 데 매우 중요한 자료입니다.

TTS 벤치마크 AI 모델

r/LocalLLaMA • 97일 전

IMP 7

큐웬3 TTS, 로컬 실시간 구동 가능한 최고의 오픈소스 모델

한국의 AI 독자를 위해 번역·요약한 결과, 이 프로젝트는 오픈소스 큐웬3 TTS(Qwen3 TTS) 모델을 활용해 로컬 환경에서 실시간 음성 합성 및 아바타 립싱크 파이프라인을 구현한 사례입니다. 스트리밍 안정화, llama.cpp를 통한 양자화 및 속도 최적화, CTC 기반 워드 레벨 정렬(자막·립싱크용), 그리고 맞춤형 음성 파인튜닝까지 성공적으로 수행하여, 기존 로봇 같던 TTS를 매우 표현력 있고 자연스러운 음성으로 개선했다는 점이 핵심입니다.

TTS 오픈소스 로컬-추론

MarkTechPost • 101일 전

IMP 8

xAI, 엔터프라이즈 음성 개발자 겨냥한 Grok 오디오 API 공개

일론 머스크의 AI 기업 xAI가 기존 음성 시장을 겨냥해 음성을 텍스트로 변환하는 STT와 텍스트를 음성으로 변환하는 TTS, 두 가지 독립적인 오디오 API를 전격 출시했습니다. 특히 Grok STT API는 경쟁사 대비 최대 3~4배 낮은 오류율을 기록하며 뛰어난 정확도를 입증했으며, TTS API는 감정 표현과 세밀한 발화 제어 기능을 제공하는 것이 특징입니다. 이를 통해 기업 개발자들은 고도화된 회의록 자동 작성, 음성 비서, 콜센터 분석 등의 서비스를 저렴하고 효율적으로 구축할 수 있게 되었습니다.

음성 AI API xAI

Google AI Blog • 104일 전

IMP 8

제미나이 3.1 플래시 TTS: 차세대 표현력 넘치는 AI 음성

구글이 텍스트 명령어로 AI의 감정, 말하기 속도 등을 세밀하게 제어할 수 있는 '제미나이 3.1 플래시 TTS'를 공개했습니다. 이 모델은 70개 이상의 언어를 지원하며, 기존 대비 가장 자연스러운 수준의 음성 품질을 제공해 개발자와 기업이 고도화된 음성 애플리케이션을 구축할 수 있게 돕습니다. 오디오 워터마크 기술(SynthID)이 적용되어 AI 생성 음성임을 식별할 수 있어 안전성도 강화되었습니다.

제미나이 TTS 음성 AI