#스텝펀

MarkTechPost • 65일 전

IMP 8

스텝펀, 역할극 특화 RLHF 적용한 'StepAudio 2.5 실시간' 공개

중국 상하이 기반 AI 연구소 스텝펀(StepFun)이 오디오 입력부터 출력까지 단일 시스템으로 처리하는 엔드투엔드 실시간 음성 대형 언어 모델(LLM) 'StepAudio 2.5 Realtime'을 공개했습니다. 이 모델은 백만 단위의 페르소나 데이터 증강과 역할극 특화 RLHF(인간 피드백 기반 강화학습)를 적용하여 대화 중 캐릭터 붕괴(OOC) 현상을 방지하고 안정적인 연기력을 유지하는 것이 특징입니다. 특히 사용자의 말투, 감정, 속도 등 비언어적(Paralinguistic) 요소를 이해하고 이에 맞춰 감정적인 반응을 생성하여 5가지 벤치마크 평가에서 모두 1위를 차지했습니다.

음성 AI 모델 엔드투엔드 LLM RLHF

스텝펀, 역할극 특화 RLHF 적용한 'StepAudio 2.5 실시간' 공개

스텝펀 3.5 플래시, 오픈클로우 300회 테스트서 최고 가성비 입증