BL
MarkTechPost • 47일 전
엔비디아, 강력한 오픈소스 오디오-언어 모델 공개
IMP 8/10
핵심 요약
엔비디아와 메릴랜드 대학교 연구진이 음성, 환경 소음, 음악 등 오디오 전반을 깊이 있게 이해하고 추론할 수 있는 오픈소스 대규모 오디오-언어 모델 '오디오 플라밍고 넥스트(Audio Flamingo Next, AF-Next)'를 공개했습니다. 기존 이미지-언어 모델에 비해 발전이 더뎠던 오디오 분야의 기술적 한계를 극복한 것이 특징입니다. 이번 연구 성과는 멀티모달 AI의 실제 배포 및 활용 범위를 시각을 넘어 청각 영역으로 획기적으로 확장했다는 점에서 매우 중요합니다.
번역된 본문
오디오를 이해하는 기술은 항상 시각(Vision) 분야에 뒤처진 멀티모달의 최전선이었습니다. 이미지-언어 모델(Image-Language Model)이 실제 환경 배포를 향해 빠르게 규모를 키워나가는 동안, 음성, 환경 소리 및 음악에 대해 강건하게 추론하는 개방형 모델을 구축하는 것, 특히 긴 길이의 오디오를 처리하는 일은 여전히 매우 어려운 과제로 남아있었습니다.
현재 엔비디아(NVIDIA)와 메릴랜드 대학교(University of Maryland) 연구진이 이 난제 해결에 직접적으로 도전장을 내밀고 있습니다 [...]
이 글 '엔비디아와 메릴랜드 대학교 연구진, 매우 강력한 오픈 대규모 오디오-언어 모델인 오디오 플라밍고 넥스트(Audio Flamingo Next, AF-Next) 공개'는 MarkTechPost에 처음 게재되었습니다.
원문 보기 (영어)
Understanding audio has always been the multimodal frontier that lags behind vision. While image-language models have rapidly scaled toward real-world deployment, building open models that robustly reason over speech, environmental sounds, and music — especially at length — has remained quite hard. NVIDIA and the University of Maryland researchers are now taking a direct swing […]
The post NVIDIA and the University of Maryland Researchers Released Audio Flamingo Next (AF-Next): A Super Powerful and Open Large Audio-Language Model appeared first on MarkTechPost.