스텝펀, 역할극 특화 RLHF 적용한 'StepAudio 2.5 실시간' 공개
중국 상하이 기반 AI 연구소 스텝펀(StepFun)이 오디오 입력부터 출력까지 단일 시스템으로 처리하는 엔드투엔드 실시간 음성 대형 언어 모델(LLM) 'StepAudio 2.5 Realtime'을 공개했습니다. 이 모델은 백만 단위의 페르소나 데이터 증강과 역할극 특화 RLHF(인간 피드백 기반 강화학습)를 적용하여 대화 중 캐릭터 붕괴(OOC) 현상을 방지하고 안정적인 연기력을 유지하는 것이 특징입니다. 특히 사용자의 말투, 감정, 속도 등 비언어적(Paralinguistic) 요소를 이해하고 이에 맞춰 감정적인 반응을 생성하여 5가지 벤치마크 평가에서 모두 1위를 차지했습니다.
기술, 인공지능, 언어 모델, 오디오 언어 모델, 에디터 추천, 신제품, 소프트웨어 엔지니어링, TTS, 음성 AI
상하이 기반 AI 연구소인 스텝펀(StepFun)이 'StepAudio 2.5 Realtime'를 공개했습니다. 이 모델은 완벽하게 맞춤 설정 가능한 페르소나 기능을 갖춘 엔드투엔드 실시간 음성 대형 언어 모델입니다.
StepAudio 2.5 Realtime은 실시간으로 작동하는 음성 모델입니다. 음성 인식, 추론, 합성을 순차적인 단계로 분리하는 파이프라인 기반 시스템과 달리, 이 모델은 엔드투엔드(End-to-End) 방식을 채택했습니다. 오디오가 입력되면 단일 통합 시스템을 통해 오디오로 출력됩니다.
이 모델은 중국어와 영어를 지원하며, WebSocket API를 통해 연결됩니다. 엔드포인트는 wss://api.stepfun.com/v1/realtime 이며, 모델 문자열로 'step-2.5-realtime'을 사용합니다.
3가지 핵심 기술 기둥 스텝펀 연구팀은 이 모델의 배경이 되는 세 가지 핵심 아키텍처 혁신을 설명했습니다.
백만 규모의 페르소나 데이터 증강 (Million-Scale Persona Data Augmentation) 10,000개 이상의 고품질 직접 작성된 페르소나 데이터를 시작으로, 스텝펀은 알고리즘적 증강을 적용하여 백만 규모의 페르소나 특징 행렬을 구축했습니다. 이는 수백만 개의 실제 대화 샘플과 결합하여 훈련에 사용되었습니다. 목표는 일반화, 특히 어렵고 롱테일(Long-tail)에 해당하는 대화 주제에서도 안정적인 성능을 발휘하는 것입니다. 스텝펀 팀은 수백만 개의 페르소나 샘플을 수동으로 레이블링하는 대신, 엄선된 시드(Seed) 세트에서 알고리즘적 확장을 사용했습니다.
역할극 특화 RLHF 정렬 (Roleplay-Specific RLHF Alignment) 대화형 AI에서 흔히 발생하는 실패 모드 중 하나는 '캐릭터 붕괴(Out-of-Character, OOC)'입니다. 즉, 대화 중에 모델이 설정된 페르소나를 벗어나는 현상입니다. 스텝펀 팀은 역할극 시나리오에서 페르소나 일관성을 유지하기 위해 특별히 전용 RLHF(인간 피드백 기반 강화학습) 최적화를 수행했습니다. RLHF는 인간의 선호도 신호를 사용하여 보상 모델을 훈련시킨 다음, 이를 통해 언어 모델의 동작을 유도하는 훈련 기술입니다. 이를 역할극 안정성에 맞춰 구체적으로 적용한 것은 매우 목적적인 설계 선택입니다.
통합된 음성 이해 및 생성 (Unified Speech Understanding and Generation) StepAudio 2.5 Realtime은 StepAudio 2.5 TTS 기능을 물려받아 강화학습을 통해 음성 이해와 생성을 깊이 있게 융합합니다. 이를 통해 스텝펀이 말하는 '글로벌 장면 수준의 톤 설정(Global scene-level tonal setting)'과 '문장 내 세부 조각(Intra-sentence detail sculpting)'이 가능해졌습니다. 모델은 개별 문장 내에서 미세한 음향적 세부 사항을 조정하면서 전체적인 감정선을 설정할 수 있습니다.
비언어적(Paralinguistic) 이해 능력 이 모델의 기술적으로 뚜렷한 차별점은 비언어적 지각 능력입니다. 비언어적 요소는 말에서 톤, 말하기 속도, 일시 정지, 한숨, 웃음소리 등과 같은 비구두적인 음향 정보를 의미합니다. 이러한 요소를 분석함으로써 모델은 사용자의 기분과 근본적인 의도를 인식할 수 있습니다. 예를 들어, 낮은 톤에서 피로감을 감지하거나 빠른 말하기 속도에서 좌절감을 파악할 수 있습니다. 이러한 신호를 포착하려면 텍스트로 변환된 결과뿐만 아니라 오디오 자체의 특징을 기반으로 모델이 작동해야 합니다. StepAudio 2.5 Realtime은 비언어적 이해 벤치마크에서 82.18점을 획득하며, 말하기 속도, 감정, 나이 및 기타 음향 특징에 대한 뛰어난 지각 능력을 입증했습니다.
벤치마크 결과 스텝펀 연구팀은 포괄적인 주관적, 객관적 평가를 실시하여 StepAudio 2.5 Realtime을 5가지 차원에서 선도적인 실시간 음성 모델들과 비교 평가했습니다. 사람을 통한 평가는 실제 모바일 앱 대화를 통해 인간 평가자가 점수를 매기는 방식으로 진행되었습니다. 점수는 다음과 같습니다:
- 사람 평가 (주관적): 80.41
- 일반 대화 (객관적): 86.36
- 자동차 시나리오 (객관적): 84.80
- 오디오 이해 작업 11개를 포괄하는 음성 QA (객관적): 79.80
- 비언어적 이해 (객관적): 82.18
핵심 요약 StepAudio 2.5 Realtime은 상하이에 본사를 둔 스텝펀이 출시한 엔드투엔드 실시간 음성 LLM입니다. 페르소나 특화 RLHF와 백만 규모의 데이터 증강을 사용하여 안정적인 캐릭터 일관성을 유지합니다. 이 모델은 2026년 4월에 테스트된 5가지 벤치마크 차원에서 모두 1위를 차지했습니다. 오디오에서 톤, 속도, 감정을 인식하는 비언어적 이해 능력이 핵심 특징입니다.