포르투갈어 LLM 'AMÁLIA'와 오픈소스의 한계
포르투갈 정부의 550만 유로 지원으로 개발된 유럽 포르투갈어 대규모 언어 모델(LLM) 'AMÁLIA'의 기술 보고서를 분석한 글입니다. 이 프로젝트는 언어적 주권을 위해 추진되었으나, 실제 학습에 사용된 유럽 포르투갈어 데이터의 비율이 낮고 모델 가중치 등 핵심 자료가 공개되지 않아 완전한 오픈소스라는 명목에 부합하지 않는다는 비판적 평가를 담고 있습니다.
AMÁLIA과 유럽 포르투갈어 LLM의 미래
2024년 12월, 포르투갈 정부는 유럽 포르투갸즈(포르투갈어)를 위한 대규모 언어 모델(LLM) 개발에 550만 유로를 투자하는 'AMÁLIA' 프로젝트를 발표했습니다. 얼마 전 여러 포르투갈어 자연어 처리(NLP) 프로젝트를 조사하던 중 우연히 이 프로젝트의 기술 보고서를 발견했고, 내 눈을 의심할 수밖에 없었습니다. 정말 할 이야기가 많습니다! 본론으로 바로 들어가겠습니다.
사실 그 전에 간단한 면책 조항을 덧붙이고 싶습니다. AMÁLIA는 매우 인상적인 작업이며, 참여한 연구진은 자랑스러워해야 마땅합니다. 하지만 국가의 투자가 이렇게 막대할 때는 그 결실이 온 국민의 몫이 되기 마련입니다. 따라서 조금 날카로운 질문을 던지는 것도 공정하다고 생각합니다. 이 프로젝트에 참여해 이 글을 읽고 계신 분이 있다면, 여러분의 수고에 감사드립니다! 자, 이제 본론으로 넘어가죠.
요약하자면, AMÁLIA AMÁLIA는 '유럽 포르투갈어를 위한 완전한 오픈소스 대규모 언어 모델(LLM)'입니다. 목표는 간단합니다. 유럽 포르투갈어를 완벽하게 지원하는(first-class citizen) LLM을 만드는 것입니다. 예를 들어 이탈리아는 'Minerva'라는 모델로 비슷한 시도를 한 바 있습니다. AMÁLIA는 포르투갈의 최고 수준 대학과 연구소(NOVA, IST, IT, FCT)들의 협력 결과물입니다.
제 예상과 달리 AMÁLIA는 처음부터 새로 학습(Training from scratch)된 모델이 아닙니다. 이전의 유럽 다국어 모델 프로젝트인 'EuroLLM'(포르투갈 인력이 많이 참여함)의 사전 학습(Pre-training) 단계를 이어받아 진행되었습니다. 제가 이해하기로 아키텍처는 EuroLLM과 동일하며, 컨텍스트 길이(Context length)와 RoPE 스케일링(RoPE scaling) 등에 약간의 수정만 가해졌습니다.
그렇다면 AMÁLIA는 어떻게 포르투갈어에 집중했을까요? 한마디로 '데이터'입니다. 학습의 모든 단계에서 모델이 학습하는 유럽 포르투갈어 데이터의 비율을 높이려고 노력했습니다. 사전 학습 단계에서는 'Arquivo.pt'의 데이터를 사용했고, 지도 미세조정(SFT) 단계에서는 합성 포르투갈어 데이터를 생성했으며, 선호도 학습(Preference training) 단계에서는 SFT 단계의 데이터 중 일부를 서브샘플링하여 사용했습니다.
학습 과정도 흥미롭지만, 더 중요한 것은 학습된 모델이 실제로 얼마나 우수한지 평가하는 것입니다. 특히 이번 경우에는 평가가 유독 까다로울 수 있습니다. 팀은 유럽 포르투갈어에 특화된 4개의 새로운 벤치마크를 만들었습니다. 그중 가장 대표적인 것이 'ALBA'입니다.
과연 얼마나 '오픈소스'인가? 완전한 오픈 모델의 표준은 'Olmo'입니다. Olmo가 벤치마크 순위를 휩쓸지는 않습니다. 그게 핵심이 아니니까요. Olmo의 핵심은 극도로 '개방성'을 추구한다는 데 있습니다. 그들의 기술 보고서를 찬찬히 읽어보시길 바랍니다. 모델 가중치(Weights)? 공개. 데이터? 공개. 코드? 공개. 학습 로그? 공개. 모든 것이 공개적으로 접근 가능합니다. 그렇기에 엄청난 가치를 지닌 자원입니다.
이 글을 쓰는 현재, AMÁLIA에서 공개된 것은 거의 없습니다. 모델 가중치, 데이터, 학습 로그 또는 새로운 벤치마크를 어디에서도 찾을 수 없었습니다. Arquivo.pt 데이터 처리 스크립트는 공개되어 있지만, 정작 결과물인 데이터셋 자체는 찾아볼 수 없습니다. 현재로서는 몇 개의 GitHub 리포지토리만 존재할 뿐입니다. '오픈 가중치(Open weights)'를 표방하는 LLM은 넘쳐나지만 진정한 '오픈소스' LLM은 드문 시대에, 이런 자료들을 빠르게 공개하는 것 그 어느 때보다 중요합니다.
어쩌면 시간 문제일 수도 있습니다. 아직 가중치가 공개되지 않는 이유에 대해 제가 이해하지 못하는 어떤 다른 사정이 있을 수도 있고, 아직 연구가 진행 중일 수도 있습니다. 하지만 내일 당장 가중치를 공개한다고 하더라도, 저는 이러한 접근 방식에 완전히 납득하지는 못할 것 같습니다.
포르투갈어 모델을 위한 포르투갈어 데이터는 얼마나 들어갔을까? 그렇다면 이 모델을 학습시키는 데 실제로 얼마나 많은 포르투갈어 데이터가 사용되었을까요? 보고서에 따르면 추가된 사전 학습 단계에서 총 1,070억(107B)개의 토큰이 사용되었습니다. 그중 명확하게 유럽 포르투갈어로 구성된 유일한 데이터는 Arquivo.pt에서 가져온 58억(5.8B)개의 토큰뿐입니다. 이는 약 5.5%로, 결코 많은 양이 아닙니다.
공정하게 말하자면, 이미 EuroLLM의 데이터 혼합물 안에도 분명 일부 포르투갈어 데이터가 존재할 것입니다. 하지만 우리는 (1) 그것이 얼마나 되는지, (2) 그것이 실제로 유럽 포르투갈어인지 다른 지역 방언(예: 브라질 포르투갈어 등)인지 전혀 알 수 없습니다. SFT 단계에서는 이 비율이 17~18% 정도로 더 높아집니다. 하지만 이것으로 충분할까요? 솔직히 말해 이 모델에 총량적으로 유럽 포르투갈어 데이터가 얼마나 포함되어 있는지 명확한 그림이 그려지지 않습니다. 저는 그 사실을 정확히 알고 싶습니다.
인상적인 점은, AMÁLIA가 최고 수준(SOTA)의 모델들을 성능 면에서 능가한다는 것입니다.