메뉴

#음성 AI

TC
TechCrunch AI 11일 전
IMP 7

구글 지메일, 대화형 AI 기능으로 이메일 검색 혁신

구글이 지메일(Gmail)에 자연어로 질문하면 답변해주는 대화형 AI 기능인 'Gmail Live'를 도입했습니다. 이 기능은 이메일에 묻혀있는 항공편, 예약 번호 등의 정보를 빠르고 직관적으로 찾을 수 있게 도와줍니다. 기존 검색창을 대체하는 것이 아니라 새로운 옵션으로 추가되며, 올여름부터 구글 AI 구독자들을 대상으로 순차적으로 제공될 예정입니다.

구글 지메일 젬미나이
TC
TechCrunch AI 11일 전
IMP 7

구글, 문서·킵·지메일에 음성 프롬프트 도입

구글이 I/O 개발자 회의에서 워크스페이스 앱(문서, 킵, 지메일)에 음성 기반 프롬프트 기능을 추가한다고 발표했습니다. 사용자는 음성으로 긴 문장을 한 번에 입력해 문서를 작성하거나, 캘린더·항공편 등의 정보를 대화형으로 검색할 수 있으며, 구글의 AI(Gemini)가 문맥을 파악해 즉시 반영합니다. 이는 최근 길고 복잡한 요청을 음성으로 처리하려는 사용자 트렌드를 반영한 것으로, 관련 시장의 경쟁이 심화될 것으로 보입니다.

구글 음성 AI 지미나이
HN
Hacker News 13일 전
IMP 8

음성 AI, 인간이 들을 수 없는 오디오 공격에 취약해

최근 연구에 따르면 인간의 귀에는 들리지 않는 특수 주파수의 소리가 음성 AI 모델의 동작을 강제로 제어할 수 있는 것으로 나타났습니다. 이는 음성 인식 기반 시스템과 자율주행 등 실생활 AI 서비스 전반에 심각한 보안 취약점을 노출하는 사안입니다. 따라서 실무자들은 모델 설계 단계부터 이러한 숨겨진 오디오 공격(Hidden Audio Attacks)에 대한 방어 메커니즘을 강구해야 합니다.

음성 AI 보안 취약점 오디오 공격
TC
TechCrunch AI 18일 전
IMP 8

메디케어의 새로운 AI 맞춤형 결제 모델

미국 연방 의료보험인 메디케어가 환자의 건강 결과에 따라 보상하는 10년 단위의 새로운 결제 모델을 시범 도입합니다. 이는 AI 기반의 환자 관리 시스템이 의료 현장에서 정식으로 수가를 인정받을 수 있는 최초의 제도적 장치 마련이라는 점에서 큰 의의가 있습니다. 실리콘밸리의 주목을 덜 받았던 Pair Team 같은 기업들이 이 프로그램에 참여하여 음성 AI 상담원 등을 활용해 만성질환자 및 취약계층의 건강 관리를 주도할 전망입니다.

헬스케어 AI 메디케어 결제 모델
TD
The Decoder 19일 전
IMP 8

미라 무라티 Thinking Machines, 오픈AI 비판하며 첫 음성 AI 공개

오픈AI 전 CTO 미라 무라티가 설립한 Thinking Machines Lab이 첫 AI 모델을 공개했습니다. 이 모델은 200밀리초 단위로 오디오와 비디오, 텍스트를 동시 처리하여 기존의 딱딱한 질의응답 방식을 넘어선 자연스러운 실시간 대화를 구현합니다. 실시간 상호작용 품질 및 지연 시간 벤치마크에서 오픈AI와 구글의 최신 모델을 능가하며, 빠른 반응 속도와 깊은 추론 능력을 결합한 것이 핵심 기술적 의의입니다.

음성 AI 실시간 상호작용 오픈AI 경쟁사
TC
TechCrunch AI 21일 전
IMP 7

인도 시장 도전하는 음성 AI 스타트업 위스프르 플로우

미국의 AI 음성 입력 스타트업 Wispr Flow(위스프르 플로우)는 복잡한 언어 환경으로 성공하기 어려운 인도 시장을 공략하고 있습니다. 힌디어와 영어가 혼합된 '힌글리시(Hinglish)' 음성 모델을 beta 테스트하고 안드로이드 버전을 출시하며 현지화에 나선 결과, 인도는 미국에 이어 두 번째로 큰 시장으로 부상했습니다. 이러한 현지 맞춤형 전략과 적극적인 마케팅을 통해 월간 사용자 성장률이 약 100%로 급증하며, 음성 AI 기술의 새로운 주요 돌파구를 보여주고 있습니다.

음성 AI 인도 시장 위스프르 플로우
TC
TechCrunch AI 23일 전
IMP 8

오픈AI, 실시간 음성 지능 API 새 기능 공개

오픈AI가 개발자가 애플리케이션 내에서 대화, 번역, 전사 기능을 구현할 수 있도록 돕는 새로운 실시간 음성 지능 기능들을 API에 추가했습니다. 이번 업데이트에는 GPT-5 수준의 추론 능력을 갖춘 'GPT-Realtime-2', 실시간 다국어 번역을 제공하는 'GPT-Realtime-Translate', 그리고 실시간 음성-텍스트 변환 기능인 'GPT-Realtime-Whisper'가 포함되었습니다. 이러한 기능들은 고객 서비스, 교육, 미디어 등 다양한 산업군에서 활용될 전망이며, 오픈AI는 스팸 및 사기와 같은 악용을 막기 위해 강력한 가드레일도 함께 적용했습니다.

오픈AI 음성 AI Realtime API
TD
The Decoder 23일 전
IMP 8

오픈AI 실시간 음성 모델, GPT-5 수준 추론 능력 탑재

오픈AI가 실시간 추론, 번역, 전사 기능에 특화된 3종的新 음성 모델(GPT-Realtime-2, Translate, Whisper)을 공개했습니다. 특히 핵심 모델인 GPT-Realtime-2는 기존 텍스트 모델과 비견되는 GPT-5 수준의 추론 능력과 12만 8천 토큰의 긴 문맥 처리 능력을 제공합니다. 이를 통해 개발자들은 단순한 질의응답을 넘어 도구 사용과 복잡한 문맥을 이해하는 수준 높은 실시간 음성 AI 에이전트를 구축할 수 있게 되었습니다.

음성 AI GPT-5 실시간 추론
OA
r/OpenAI 23일 전
IMP 9

실시간 음성 앱 혁신, 세 가지 오디오 API 공개

사람이 말하는 동시에 추론, 번역, 전사가 가능한 차세대 실시간 음성 모델 3종이 API를 통해 공개되었습니다. 개발자들은 이 모델을 활용하여 단순한 대화를 넘어 실시간으로 작업을 수행하고 도구를 활용하는 지능형 음성 인터페이스를 구축할 수 있게 되었습니다.

음성 AI API 실시간 번역
HN
Hacker News 23일 전
IMP 6

OpenAI의 WebRTC 문제점

WebRTC 전문가가 OpenAI가 음성 AI에 WebRTC를 사용하는 것을 강하게 비판하는 글입니다. WebRTC는 낮은 지연 시간을 위해 오디오 패킷을 과도하게 드롭하고 버퍼링이 불가능하여, 비용이 많이 드는 LLM 프롬프트가 손상될 수 있습니다. 특히 TTS가 실시간보다 빠르게 생성됨에도 불구하고 불필요한 대기 시간을 추가하고 네트워크 변동에 취약해지는 구조적 모순을 지적합니다.

WebRTC 음성 AI Realtime API
TC
TechCrunch AI 24일 전
IMP 7

스포티파이 AI DJ, 4개국어 추가 지원

스포티파이가 AI DJ 기능에 프랑스어, 독일어, 이탈리아어, 브라질 포르투갈어 등 4개 국어를 추가로 지원한다고 발표했습니다. 사용자는 해당 언어에 최적화된 각기 다른 이름과 성격을 가진 AI DJ와 음성 대화를 나누며 음악을 요청할 수 있습니다. 이번 업데이트로 한국을 포함한 9개국에 서비스가 추가되어, 총 75개국 이상에서 이용 가능해졌습니다.

스포티파이 AI DJ 음성 AI
HN
Hacker News 25일 전
IMP 7

텔러스, 실시간 AI로 콜센터 상담원 억양 변경

캐나다 통신사 텔러스(Telus)가 해외 콜센터 상담원의 억양을 실시간으로 바꾸는 AI 기술을 도입해 논란이 일고 있습니다. 이 기술은 의사소통의 불편함을 줄인다는 목적이지만, 노동단체는 고객을 기만하는 행위라며 공개 의무화를 촉구하고 있습니다. 실무자들은 실시간 음성 변환 파이프라인 도입 시 발생할 수 있는 레이턴시, 자연스러움, 그리고 고객 동의 및 개인정보 보호와 같은 규제 이슈를 함께 고려해야 합니다.

음성 AI 콜센터 자동화 개인정보 보호
TC
TechCrunch AI 25일 전
IMP 8

일레븐랩스, 블랙록·엔비디아 등 투자 유치

음성 AI 스타트업 일레븐랩스(ElevenLabs)가 5억 달러 규모의 시리즈 D 투자를 완료하며, 블랙록, 엔비디아, 세일즈포스 등을 새로운 투자자로 영입했습니다. 이번 자금 조달과 함께 회사의 연간 반복 수익(ARR)은 5억 달러를 돌파했으며, 기업 가치 역시 110억 달러로 급상승하며 업계 최강자로서의 입지를 확고히 했습니다.

음성 AI 일레븐랩스 투자 유치
TC
TechCrunch AI 25일 전
IMP 8

일레븐랩스, 블랙록·NVIDIA 등 투자 유치

음성 AI 스타트업 일레븐랩스(ElevenLabs)가 블랙록, 엔비디아,Salesforce 등 글로벌 대형 기업과 제이미 폭스, 황동혁 감독 등을 새로운 투자자로 영입했습니다. 이번 시리즈D 투자를 통해 110억 달러(약 15조 원)의 기업 가치를 달성한 이 회사는 최근 연간 반복 수익(ARR)이 5억 달러를 돌파하며 빠른 성장세를 보여주고 있습니다.

음성 AI 기업 가치 투자 유치
HN
Hacker News 26일 전
IMP 8

OpenAI의 대규모 초저지연 음성 AI 구현법

OpenAI가 9억 명 이상의 주간 활성 사용자를 위해 대규모 실시간 음성 AI 서비스를 제공하는 방법을 설명하는 기술 블로그 글입니다. 자연스러운 대화를 방해하는 네트워크 지연을 해결하기 위해 기존 WebRTC 스택을 전면 재설계한 배경과 과정을 다룹니다. 표준 WebRTC의 장점을 살리면서도 OpenAI 인프라에 맞춘 새로운 '분할 릴레이 및 트랜시버(Split relay plus transceiver) 아키텍처'를 도입한 기술적 핵심을 공유합니다.

OpenAI 음성 AI WebRTC
MP
MarkTechPost 42일 전
IMP 8

xAI, 엔터프라이즈 음성 개발자 겨냥한 Grok 오디오 API 공개

일론 머스크의 AI 기업 xAI가 기존 음성 시장을 겨냥해 음성을 텍스트로 변환하는 STT와 텍스트를 음성으로 변환하는 TTS, 두 가지 독립적인 오디오 API를 전격 출시했습니다. 특히 Grok STT API는 경쟁사 대비 최대 3~4배 낮은 오류율을 기록하며 뛰어난 정확도를 입증했으며, TTS API는 감정 표현과 세밀한 발화 제어 기능을 제공하는 것이 특징입니다. 이를 통해 기업 개발자들은 고도화된 회의록 자동 작성, 음성 비서, 콜센터 분석 등의 서비스를 저렴하고 효율적으로 구축할 수 있게 되었습니다.

음성 AI API xAI
TC
TechCrunch AI 45일 전
IMP 8

텍스트 번역으로 유명한 DeepL, 실시간 음성 번역 시장 진출

텍스트 번역 기업 DeepL이 회의, 모바일 대화, 현장 근무자용 그룹 대화 등 다양한 환경을 지원하는 실시간 음성 대 음성(Voice-to-Voice) 번역 제품군과 API를 공식 출시했습니다. 줌(Zoom)과 마이크로소프트 팀즈(Teams) 플러그인 연동, 산업별 맞춤형 어휘 학습 기능을 제공하여 글로벌 비즈니스 및 고객 지원 환경에서 즉각적인 활용이 가능합니다. 이번 출시로 DeepL은 기존 텍스트 번역 역량을 바탕으로 음성 AI 시장의 유력한 경쟁자로 자리매김하며, 향후 텍스트 변환 과정을 생략하는 엔드투엔드(End-to-End) 음성 번역 모델 개발도 예고했습니다.

DeepL 음성 AI 실시간 번역
GB
Google AI Blog 45일 전
IMP 8

제미나이 3.1 플래시 TTS: 차세대 표현력 넘치는 AI 음성

구글이 텍스트 명령어로 AI의 감정, 말하기 속도 등을 세밀하게 제어할 수 있는 '제미나이 3.1 플래시 TTS'를 공개했습니다. 이 모델은 70개 이상의 언어를 지원하며, 기존 대비 가장 자연스러운 수준의 음성 품질을 제공해 개발자와 기업이 고도화된 음성 애플리케이션을 구축할 수 있게 돕습니다. 오디오 워터마크 기술(SynthID)이 적용되어 AI 생성 음성임을 식별할 수 있어 안전성도 강화되었습니다.

제미나이 TTS 음성 AI
MP
MarkTechPost 48일 전
IMP 7

마이크로소프트 VibeVoice 실전 튜토리얼

이 튜토리얼은 마이크로소프트의 음성 AI 모델인 VibeVoice를 활용하여 음성 인식(ASR)과 실시간 음성 합성(TTS) 파이프라인을 구축하는 과정을 다룹니다. 구글 Colab 환경에서 화자 구분, 문맥 인식 ASR, 표현력이 풍부한 TTS, 그리고 엔드투엔드 음성-음성(Speech-to-Speech) 변환 기술을 실습할 수 있습니다. 개발자와 실무자들에게 최신 오디오 언어 모델을 자신의 데이터에 적용하고 실험해 볼 수 있는 실용적인 가이드를 제공합니다.

음성 AI 마이크로소프트 텍스트 음성 변환 (TTS)