메뉴

#음성 인식 (ASR)

MP
MarkTechPost 48일 전
IMP 7

마이크로소프트 VibeVoice 실전 튜토리얼

이 튜토리얼은 마이크로소프트의 음성 AI 모델인 VibeVoice를 활용하여 음성 인식(ASR)과 실시간 음성 합성(TTS) 파이프라인을 구축하는 과정을 다룹니다. 구글 Colab 환경에서 화자 구분, 문맥 인식 ASR, 표현력이 풍부한 TTS, 그리고 엔드투엔드 음성-음성(Speech-to-Speech) 변환 기술을 실습할 수 있습니다. 개발자와 실무자들에게 최신 오디오 언어 모델을 자신의 데이터에 적용하고 실험해 볼 수 있는 실용적인 가이드를 제공합니다.

음성 AI 마이크로소프트 텍스트 음성 변환 (TTS)
TC
TechCrunch AI 54일 전
IMP 7

구글, 오프라인 구동되는 AI 받아쓰기 앱 출시

구글이 Wispr Flow, SuperWhisper 등과 경쟁하기 위해 오프라인에서도 AI 받아쓰기가 가능한 'Google AI Edge Eloquent' 앱을 iOS용으로 조용히 출시했습니다. 이 앱은 온디바이스 기반의 Gemma 모델을 사용하여 음성을 텍스트로 변환하고, 불필요한 추임새를 자동으로 제거하여 깔끔한 문장으로 다듬어주는 것이 특징입니다. 현재는 iOS 버전만 제공되지만 향후 안드로이드 통합 기능도 지원될 예정이며, 이번 실험적 출시를 통해 구글의 본격적인 음성 AI 시장 진출을 확인할 수 있습니다.

음성 인식 (ASR) 온디바이스 AI 구글 (Google)