#오디오-언어 모델

MarkTechPost • 47일 전

IMP 8

엔비디아, 강력한 오픈소스 오디오-언어 모델 공개

엔비디아와 메릴랜드 대학교 연구진이 음성, 환경 소음, 음악 등 오디오 전반을 깊이 있게 이해하고 추론할 수 있는 오픈소스 대규모 오디오-언어 모델 '오디오 플라밍고 넥스트(Audio Flamingo Next, AF-Next)'를 공개했습니다. 기존 이미지-언어 모델에 비해 발전이 더뎠던 오디오 분야의 기술적 한계를 극복한 것이 특징입니다. 이번 연구 성과는 멀티모달 AI의 실제 배포 및 활용 범위를 시각을 넘어 청각 영역으로 획기적으로 확장했다는 점에서 매우 중요합니다.

인공지능 오디오-언어 모델 오픈소스