#알리바바 Qwen

알리바바 통번역 AI, 60개 언어 2.8초 지연

알리바바 클라우드의 Qwen 팀이 실시간 다국어 통번역 모델인 Qwen3.5-LiveTranslate-Flash를 공개했습니다. 이 모델은 60개 언어의 입력을 2.8초의 지연 시간으로 처리하며, 시각 정보 분석과 화자의 음성 실시간 클로닝을 지원합니다. 소음이 많은 환경에서도 안정적인 성능을 발휘하고 전문 용어 사전 주입 기능을 갖춰 글로벌 기업의 실무 환경에 즉각적인 활용이 가능한 것이 핵심입니다.

음성 인식 및 번역 멀티모달 AI 알리바바 Qwen

The Decoder • 114일 전

IMP 8

알리바바 Qwen, 시각 AI 다단계 추론 오류 해결

비전 언어 모델(VLM)은 이미지에 대한 다단계 추론 시 초기의 작은 인지 오류가 누적되어 최종 결과가 완전히 틀어지는 문제가 있습니다. 알리바바 Qwen 팀과 칭화대는 이러한 오류 누적을 방지하기 위해 모델이 매 단계마다 이미지를 다시 세밀하게 확인하도록 강제하는 'HopChain' 프레임워크를 개발했습니다. 이를 기반으로 강화학습을 수행한 결과 24개 벤치마크 중 20개에서 성능이 향상되는 등 시각적 추론 능력이 크게 개선되었습니다.

비전 언어 모델 멀티모달 AI 추론 오류

The Decoder • 115일 전

IMP 8

알리바바 Qwen, AI 추론 사고 과정을 깊게 만드는 새 알고리즘 발표

알리바바의 Qwen 팀은 기존 강화학습의 한계를 극복하고 개별 토큰의 영향력에 따라 보상을 차등 분배하는 새로운 훈련 알고리즘인 FIPO를 발표했습니다. 이를 통해 AI 모델의 추론(사고) 과정이 두 배 이상 길어졌으며, 중간 결과를 스스로 검증하는 능력이 자연스럽게 발현되어 수학 벤치마크에서 정확도가 크게 향상되었습니다. 이 알고리즘은 별도의 가치 모델 없이도 기존 PPO 방식과 맞먹는 성능을 내며, 향후 오픈소스로 공개될 예정입니다.

강화학습 추론 모델 알리바바 Qwen