알리바바 통번역 AI, 60개 언어 2.8초 지연
알리바바 클라우드의 Qwen 팀이 실시간 다국어 통번역 모델인 Qwen3.5-LiveTranslate-Flash를 공개했습니다. 이 모델은 60개 언어의 입력을 2.8초의 지연 시간으로 처리하며, 시각 정보 분석과 화자의 음성 실시간 클로닝을 지원합니다. 소음이 많은 환경에서도 안정적인 성능을 발휘하고 전문 용어 사전 주입 기능을 갖춰 글로벌 기업의 실무 환경에 즉각적인 활용이 가능한 것이 핵심입니다.
동시통역은 응용 AI 분경에서 가장 어려운 문제 중 하나입니다. 모델이 화자가 문장을 끝마치기도 전에 음성을 번역해야 하기 때문입니다. 실시간 통신의 경험을 깨뜨리는 지연 시간이 1초만 늘어나도 체감 품질은 크게 떨어집니다. 알리바바의 Qwen팀은 매번 새로운 릴리즈를 통해 이 문제를 조금씩 해결해 왔습니다. 이들의 최신 모델인 Qwen3.5-LiveTranslate-Flash는 지연 시간(latency)을 2.8초까지 줄이고 입력 언어 지원 범위를 60개 언어로 확장했습니다.
이전 릴리즈 대비 의미 있는 도약 이전 버전인 Qwen3-LiveTranslate-Flash는 약 3초의 지연 시간으로 18개 입력 언어를 처리했습니다. 반면 Qwen3.5-LiveTranslate-Flash는 지연 시간을 2.8초로 단축하고, 입력 언어를 60개로 확장했으며, 29개 언어에 대한 음성 출력 기능을 추가했습니다. 입력 측면에서 무려 3배 이상의 언어 지원 확장입니다. 다국어 제품을 개발하는 개발자들에게 이는 글로벌 기업 환경에서 언어별로 모델을 교체해야 하는 수고를 크게 덜어줍니다. 지연 시간의 개선은 팀이 '읽기 단위(reading units)'라고 부르는 기술을 처리하는 방식에서 비롯됩니다. 출력을 생성하기 전에 완전한 하나의 문장이 도착할 때까지 기다리는 대신, 모델은 특정 세그먼트에 충분한 의미가 누적되었을 때 번역을 시작할 시점을 스스로 결정합니다. 화자가 여전히 말을 하고 있는 동안에도 출력을 지속적으로 스트리밍합니다. 이는 시맨틱 유닛 예측(Semantic Unit Prediction)과 동일한 기본 논리이지만, 추가적인 200밀리초를 줄여주는 더욱 타이트한 구현 방식입니다.
시각 정보, 1순위 입력 데이터로 격상 대부분의 번역 시스템은 오디오를 유일한 입력 신호로 취급합니다. 이는 잡음 없는 스튜디오 환경에서는 잘 작동하지만, 붐비는 회의실이나 시끄러운 트레이딩 룸, 또는 목소리가 겹치고 음향 환경이 좋지 않은 곳에서는 성능이 급격히 저하됩니다. Qwen3.5-LiveTranslate-Flash는 다른 접근 방식을 취합니다. 오디오와 병렬로 화면의 텍스트, 실제로 보이는 물체, 입모양, 제스처와 같은 시각적 정보를 분석합니다. 단어의 발음이 모호하거나 오디오 스트림의 질이 떨어질 때, 시각적 컨텍스트가 그 공백을 메우고 번역의 정확도를 높입니다. 이는 결코 사소한 기능이 아닙니다. 실제 배포 환경에서는 오디오 품질이 보장되는 경우가 거의 없습니다. 시각 채널(Vision Channel)이 있다는 것은 오디오 전용 시스템보다 모델이 현장의 복잡한 실시간 통번역 상황을 훨씬 더 유연하게 처리할 수 있음을 의미합니다.
실시간으로 이루어지는 음성 클로닝 이는 Qwen3.5 릴리즈에서 가장 눈에 띄는 부분입니다. 기존의 일반적인 번역 시스템은 화자의 음성을 범용적인 합성 음성으로 대체합니다. 반면 Qwen3.5-LiveTranslate-Flash는 번역 과정 자체에서 원래 화자의 특징적인 음성 특징을 실시간으로 클로닝합니다. 단 하나의 발화 문장만으로도 모델이 이러한 음향적 적응을 수행하기에 충분합니다. 수신 측의 청취자 입장에서 번역된 출력은 로봇 같은 대체 음성이 아니라, 마치 동일한 화자가 목표 언어로 직접 말하는 것처럼 들립니다. 실시간 회의 통번역, 다국어 라이브 스트리밍 또는 국제 고객 전화 통화에서 이는 매우 중요합니다. 현재의 다른 시스템들이 제공하는 것보다 눈에 띄게 더 인간적이고 자연스러운 경험을 제공합니다.
도메인별 키워드 동적 구성 전문적인 환경에서 번역 모델이 가장 흔하게 겪는 실패 원인은 고유명사와 전문 어휘의 오역입니다. 의학 브리핑을 번역하는 모델이 약물명을 지속적으로 오역할 수 있으며, 법률 통역 세션은 기술적인 법률 용어로 인해 엉뚱하게 진행될 수 있습니다. Qwen3.5-LiveTranslate-Flash는 런타임에 동적 키워드 구성을 통해 이 문제를 해결합니다. 개발자는 브랜드 이름, 의학 용어, 법률 용어 또는 기술 어휘의 용어집을 모델에 주입할 수 있으며, 모델은 해당 용어들을 훨씬 더 안정적으로 정확하게 처리합니다. 이 기능은 대부분의 범용 번역 API에서는 제공되지 않으며, 특정 산업 도메인에 특화된 기업 배포 환경의 실질적인 간극을 메워줍니다.
벤치마크 성능 다국어 음성 번역을 위한 두 가지 확립된 벤치마크인 FLEURS 및 CoVoST2에서 Qwen3.5-LiveTranslate-Flash는 타 모델들을 능가하는 성능을 보여줍니다.