#텍스트 음성 변환

마이크로소프트, 오픈소스 최고 수준 음성 AI '바이브보이스' 공개

마이크로소프트가 장문 음성 처리 및 구조화된 전사에 특화된 음성 인식(ASR) 및 합성(TTS) 오픈소스 모델 패밀리인 '바이브보이스(VibeVoice)'를 공개했습니다. 이 모델은 최대 60분의 오디오를 한 번에 처리하고 발화자 구분, 타임스탬프, 내용을 구조화하여 출력하는 것이 가장 큰 특징입니다. 50개 이상의 언어를 지원하며, 최근에는 허깅페이스(Hugging Face) 트랜스포머 라이브러리와 vLLM 추론 통합을 통해 실무 적용이 매우 용이해졌습니다.

음성 인식 텍스트 음성 변환 마이크로소프트

MarkTechPost • 104일 전

IMP 7

구글 AI, 표현력과 제어력을 강화한 'Gemini 3.1 Flash TTS' 공개

구글이 음성 품질과 표현력 제어, 다국어 생성 기능을 집중적으로 개선한 프리뷰 텍스트 음성 변환(TTS) 모델인 Gemini 3.1 Flash TTS를 공개했습니다. 이번 릴리스는 자연어 오디오 태그, 70개 이상의 언어 기본 지원 및 다중 화자 대화를 특징으로 합니다. 이는 단순한 텍스트 변환을 넘어, 기존의 '블랙박스' 음성 생성 방식에서 탈피해 더욱 정교하게 제어 가능한 AI 음성 생성으로의 전환을 알리는 중요한 의미를 지닙니다.

인공지능 음성 합성 텍스트 음성 변환