구글 지마 4, 다중 토큰 예측 기능 숨겨져 있었다
개발자가 안드로이드 기기에서 구글의 오픈소스 모델인 지마 4(Gemma 4)를 테스트하던 중, 파일 내부에 속도 향상을 위한 '다중 토큰 예측(MTP)' 가중치가 숨겨져 있음을 발견했습니다. 구글 측은 기기 호환성을 이유로 해당 기능을 의도적으로 제거했다고 확인했으나, 이미 빠른 MoE(혼합 전문가) 아키텍처 기반의 모델에서 MTP가 적용되었다면 텍스트 생성 속도가 획기적으로 빨라졌을 것이라는 아쉬움이 나오고 있습니다.
안녕하세요 여러분, 안드로이드 앱에서 LiteRT API를 통해 Gemma 4를 활용하려던 중, 구글 픽셀 9 테스트 기기에 모델을 로딩할 때 'MTP 가중치의 텐서 형태가 호환되지 않는다'는 에러가 발생하는 것을 발견했습니다. 이를 파고들어 본 결과, 추측 디코딩(Speculative decoding)과 훨씬 더 빠른 출력을 위해 LiteRT 파일 내부에 추가적인 MTP(Multi Token Prediction, 다중 토큰 예측) 헤드가 존재한다는 사실을 알게 되었습니다.
오늘 구글 직원으로부터 Gemma 4에 실제로 MTP가 포함되어 있었으나, '호환성 및 폭넓은 사용성 보장'을 위해 '의도적으로 제거되었다'는 확인을 받았습니다.
솔직히 말해서, 제프 딘(Jeff Dean)의 트윗에 실수로 유출되어 우리가 이미 보지 못했던 124B(1240억 파라미터) 모델 대신, 이 정도의 풀 모델을 공식적으로 출시했다면 정말 좋았을 것입니다. 이미 빠른 속도를 자랑하는 MoE(Mixture of Experts, 혼합 전문가 모델)에 적용하여 훨씬 더 빠른 Gemma 4 생성 결과물을 볼 수 있었다면 금상첨화였겠죠. 누군가 LiteRT의 연산 그래프(compute graph)를 기반으로 텐서와 수학적 구조를 역설계하여 추출할 수 있을지도 모릅니다.
다음은 관련 대화 링크입니다: