MarkTechPost • 63일 전

스테이빌리티 AI, 오디오 생성 모델 '스테이블 오디오 3' 공개

IMP

8/10

핵심 요약

스테이빌리티 AI가 악기 및 효과음 생성에 특화된 잠재 확산(Latent Diffusion) 모델인 스테이블 오디오 3(Stable Audio 3)를 공개했습니다. 소형 및 중형 모델의 가중치가 오픈소스로 공개되었으며, 중형 모델은 8GB VRAM을 탑재한 일반 소비자용 GPU에서도 구동될 만큼 가볍고 효율적입니다. 특히 5초 길이의 오디오 생성 벤치마크에서 기존 모든 오픈소스 모델을 뛰어넘는 최고 수준의 성능을 기록한 점이 가장 큰 의의입니다.

번역된 본문

스테이빌리티 AI(Stability AI)가 악기 연주 및 효과음 생성을 위한 잠재 확산 모델(Latent Diffusion Models) 제품군인 스테이블 오디오 3(Stable Audio 3)를 공개했습니다. 이번 릴리스에는 소형(Small) 및 중형(Medium) 모델의 오픈 웨이트(Open Weights)가 포함되었습니다. 소형 모델은 맥북 프로 M4(MacBook Pro M4) CPU 환경에서도 실행될 수 있으며, 중형 모델은 8GB VRAM을 갖춘 일반 소비자용 GPU에 맞춰 구동 가능합니다. 두 모델 모두 흐름 정합(Flow Matching), 증류 웜업(Distillation Warmup), 적대적 사후 훈련(Adversarial Post-training)이라는 3단계 훈련 파이프라인을 활용하여 44.1kHz의 스테레오 오디오를 생성합니다. 5초 길이의 BBC Sound Effects 벤치마크 테스트에서 SA3 Medium 모델은 0.369의 FAD(Fréchet Audio Distance) 점수를 기록했으며, 이는 해당 논문에서 평가된 모든 오픈 웨이트 기준 모델(Baseline)보다 더 낮은(즉, 더 우수한) 수치입니다. 이 글 'Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing'은 MarkTechPost에 처음 게재되었습니다.

원문 보기

원문 보기 (영어)

Stability AI has released Stable Audio 3, a family of latent diffusion models for instrumental music and sound effects generation. The release includes open weights for the small and medium variants. Small runs on a MacBook Pro M4 CPU. Medium fits on consumer GPUs with 8 GB of VRAM. Both generate stereo audio at 44.1 kHz using a three-stage training pipeline: flow matching, distillation warmup, and adversarial post-training. On the BBC Sound Effects benchmark at 5 seconds, SA3 medium scores FAD 0.369 — lower than every open-weight baseline evaluated in the paper. The post Stability AI Releases Stable Audio 3: A Family of Fast Latent Diffusion Models for Audio Generation and Editing appeared first on MarkTechPost.

음성 생성 오픈소스 Stability AI Latent Diffusion 경량 모델