메뉴
HN
Hacker News 22일 전

포르투갈어 LLM 'AMÁLIA'와 오픈소스의 한계

IMP
5/10
핵심 요약

포르투갈 정부의 550만 유로 지원으로 개발된 유럽 포르투갈어 대규모 언어 모델(LLM) 'AMÁLIA'의 기술 보고서를 분석한 글입니다. 이 프로젝트는 언어적 주권을 위해 추진되었으나, 실제 학습에 사용된 유럽 포르투갈어 데이터의 비율이 낮고 모델 가중치 등 핵심 자료가 공개되지 않아 완전한 오픈소스라는 명목에 부합하지 않는다는 비판적 평가를 담고 있습니다.

번역된 본문

AMÁLIA과 유럽 포르투갈어 LLM의 미래

2024년 12월, 포르투갈 정부는 유럽 포르투갸즈(포르투갈어)를 위한 대규모 언어 모델(LLM) 개발에 550만 유로를 투자하는 'AMÁLIA' 프로젝트를 발표했습니다. 얼마 전 여러 포르투갈어 자연어 처리(NLP) 프로젝트를 조사하던 중 우연히 이 프로젝트의 기술 보고서를 발견했고, 내 눈을 의심할 수밖에 없었습니다. 정말 할 이야기가 많습니다! 본론으로 바로 들어가겠습니다.

사실 그 전에 간단한 면책 조항을 덧붙이고 싶습니다. AMÁLIA는 매우 인상적인 작업이며, 참여한 연구진은 자랑스러워해야 마땅합니다. 하지만 국가의 투자가 이렇게 막대할 때는 그 결실이 온 국민의 몫이 되기 마련입니다. 따라서 조금 날카로운 질문을 던지는 것도 공정하다고 생각합니다. 이 프로젝트에 참여해 이 글을 읽고 계신 분이 있다면, 여러분의 수고에 감사드립니다! 자, 이제 본론으로 넘어가죠.

요약하자면, AMÁLIA AMÁLIA는 '유럽 포르투갈어를 위한 완전한 오픈소스 대규모 언어 모델(LLM)'입니다. 목표는 간단합니다. 유럽 포르투갈어를 완벽하게 지원하는(first-class citizen) LLM을 만드는 것입니다. 예를 들어 이탈리아는 'Minerva'라는 모델로 비슷한 시도를 한 바 있습니다. AMÁLIA는 포르투갈의 최고 수준 대학과 연구소(NOVA, IST, IT, FCT)들의 협력 결과물입니다.

제 예상과 달리 AMÁLIA는 처음부터 새로 학습(Training from scratch)된 모델이 아닙니다. 이전의 유럽 다국어 모델 프로젝트인 'EuroLLM'(포르투갈 인력이 많이 참여함)의 사전 학습(Pre-training) 단계를 이어받아 진행되었습니다. 제가 이해하기로 아키텍처는 EuroLLM과 동일하며, 컨텍스트 길이(Context length)와 RoPE 스케일링(RoPE scaling) 등에 약간의 수정만 가해졌습니다.

그렇다면 AMÁLIA는 어떻게 포르투갈어에 집중했을까요? 한마디로 '데이터'입니다. 학습의 모든 단계에서 모델이 학습하는 유럽 포르투갈어 데이터의 비율을 높이려고 노력했습니다. 사전 학습 단계에서는 'Arquivo.pt'의 데이터를 사용했고, 지도 미세조정(SFT) 단계에서는 합성 포르투갈어 데이터를 생성했으며, 선호도 학습(Preference training) 단계에서는 SFT 단계의 데이터 중 일부를 서브샘플링하여 사용했습니다.

학습 과정도 흥미롭지만, 더 중요한 것은 학습된 모델이 실제로 얼마나 우수한지 평가하는 것입니다. 특히 이번 경우에는 평가가 유독 까다로울 수 있습니다. 팀은 유럽 포르투갈어에 특화된 4개의 새로운 벤치마크를 만들었습니다. 그중 가장 대표적인 것이 'ALBA'입니다.

과연 얼마나 '오픈소스'인가? 완전한 오픈 모델의 표준은 'Olmo'입니다. Olmo가 벤치마크 순위를 휩쓸지는 않습니다. 그게 핵심이 아니니까요. Olmo의 핵심은 극도로 '개방성'을 추구한다는 데 있습니다. 그들의 기술 보고서를 찬찬히 읽어보시길 바랍니다. 모델 가중치(Weights)? 공개. 데이터? 공개. 코드? 공개. 학습 로그? 공개. 모든 것이 공개적으로 접근 가능합니다. 그렇기에 엄청난 가치를 지닌 자원입니다.

이 글을 쓰는 현재, AMÁLIA에서 공개된 것은 거의 없습니다. 모델 가중치, 데이터, 학습 로그 또는 새로운 벤치마크를 어디에서도 찾을 수 없었습니다. Arquivo.pt 데이터 처리 스크립트는 공개되어 있지만, 정작 결과물인 데이터셋 자체는 찾아볼 수 없습니다. 현재로서는 몇 개의 GitHub 리포지토리만 존재할 뿐입니다. '오픈 가중치(Open weights)'를 표방하는 LLM은 넘쳐나지만 진정한 '오픈소스' LLM은 드문 시대에, 이런 자료들을 빠르게 공개하는 것 그 어느 때보다 중요합니다.

어쩌면 시간 문제일 수도 있습니다. 아직 가중치가 공개되지 않는 이유에 대해 제가 이해하지 못하는 어떤 다른 사정이 있을 수도 있고, 아직 연구가 진행 중일 수도 있습니다. 하지만 내일 당장 가중치를 공개한다고 하더라도, 저는 이러한 접근 방식에 완전히 납득하지는 못할 것 같습니다.

포르투갈어 모델을 위한 포르투갈어 데이터는 얼마나 들어갔을까? 그렇다면 이 모델을 학습시키는 데 실제로 얼마나 많은 포르투갈어 데이터가 사용되었을까요? 보고서에 따르면 추가된 사전 학습 단계에서 총 1,070억(107B)개의 토큰이 사용되었습니다. 그중 명확하게 유럽 포르투갈어로 구성된 유일한 데이터는 Arquivo.pt에서 가져온 58억(5.8B)개의 토큰뿐입니다. 이는 약 5.5%로, 결코 많은 양이 아닙니다.

공정하게 말하자면, 이미 EuroLLM의 데이터 혼합물 안에도 분명 일부 포르투갈어 데이터가 존재할 것입니다. 하지만 우리는 (1) 그것이 얼마나 되는지, (2) 그것이 실제로 유럽 포르투갈어인지 다른 지역 방언(예: 브라질 포르투갈어 등)인지 전혀 알 수 없습니다. SFT 단계에서는 이 비율이 17~18% 정도로 더 높아집니다. 하지만 이것으로 충분할까요? 솔직히 말해 이 모델에 총량적으로 유럽 포르투갈어 데이터가 얼마나 포함되어 있는지 명확한 그림이 그려지지 않습니다. 저는 그 사실을 정확히 알고 싶습니다.

인상적인 점은, AMÁLIA가 최고 수준(SOTA)의 모델들을 성능 면에서 능가한다는 것입니다.

원문 보기
원문 보기 (영어)
AMÁLIA and the future of European Portuguese LLMs April 24, 2026 In December 2024, the Portuguese government announced AMÁLIA: a 5.5 Million Euro investment on a large-scale LLM for European Portuguese 1 . The other day, while building an overview of the different Portuguese NLP efforts, I stumbled upon the technical report ! I couldn't believe my eyes. Much to talk about! Let's get straight to it! Actually , before we do. A quick disclaimer: AMÁLIA is an impressive piece of work. And the researchers should be very proud. But when the investment from the state is this significant, the entire country is the recipient of the work - and so I think it's only fair to ask some hard questions. If you participated on the project and are reading this: Thank you for your work! Alright - now let's get to it. AMÁLIA in a nutshell AMÁLIA is "a fully open source Large Language Model (LLM) for European Portuguese". The goal is simple: to create an LLM that treats European Portuguese as a first-class citizen. Italy, for example - did something similar with Minerva . AMÁLIA is a result of a collaboration between several top tier Portuguese Universities and Research Labs (NOVA, IST, IT, and FCT). Contrary to what I would have expected, AMÁLIA is not trained from scratch. It's a continuation of the pre-training phase of EuroLLM : an earlier effort (with a lot of Portuguese manpower!). To my understanding, the architecture is the same as EuroLLM, with some slight modifications to the context length and RoPE scaling. Now, how does AMÁLIA focus on Portuguese? One word: Data . Across every different training stage they tried to increase the share of European Portuguese data the model was trained on. During pre-training they used Arquivo.pt data, during supervised fine tuning (SFT) they synthetically generated Portuguese data, and during preference training they sub-sampled some of the data from the SFT phase. Training is interesting and all, but even more interesting is to measure if what was trained was any good. Which for this particular case, can be especially challenging. The team created four new benchmarks specific for European Portuguese. The most prominent one of these is ALBA . How open source, really? The standard for fully open models is Olmo . Olmo doesn't lead benchmarks. That's not the point. The point of Olmo is to be extremely open. Just browse their technical report . Weights? Open. Data? Open. Code? Open. Training logs? Open. Everything is publicly accessible. Which makes it an incredible resource. At the moment I'm writing this, very little of AMÁLIA is open. I could not find the model weights, data, training logs, or new benchmarks listed anywhere. The Arquivo.pt processing scripts are open, but the resulting dataset itself is nowhere to be found. For now we have some GitHub repos . In the era of many "open weights" but few "open source" LLMs , it has never been more important to put these things out there, and put them out there fast. Maybe it's a matter of time. Maybe there's something beyond my understanding as to why we still have no model weights. Maybe it's a research-in-progress. But even if they released weights tomorrow, I'm not sure I'm completely sold on the approach. How much Portuguese data for a Portuguese model? So how much actual Portuguese data was used in training this model? According to the report the extended pre-training was a total of 107B tokens. Of those, the only clearly European Portuguese component is the 5.8B tokens from Arquivo.pt. That's around 5.5% , which is not a lot. To be fair - there surely is some Portuguese data in the EuroLLM mixture already. But we don't know (1) how much, (2) and if it's actually European Portuguese or something else. On the SFT side, the percentage is higher - more like 17-18%. But is that enough? To be transparent, I don't have a completely clear picture of how much European Portuguese is in total in this model. And I would like to. Impressively, AMÁLIA beats SOTA models like Qwen 3-8B on most Portuguese benchmarks (big win!) 2 . But Qwen 3-8B still beats us on ALBA for example, why? Is it because they did some Portuguese specific training? Unlikely. Which makes me wonder: How much more could we benefit from additional pre-training data in Portuguese? I can only speculate. Are we even optimizing for the right thing? What should we be optimizing for? The AMÁLIA team created four new benchmarks for European Portuguese. They cover a lot of ground. They focus on grammar, syntax, general knowledge, and (important!) whether it has a significant bias towards Brazilian Portuguese. But I think there's a dimension the team missed: Are we actually measuring how much the model knows about Portugal? It's a great opportunity to show that a model that is smaller, but has much more intrinsic knowledge about Portugal. Even when comparing with similar (or even larger) models. I don't think any of the benchmarks captures this dimension. Portuguese exams help - but don't fully solve the problem. I'm thinking: "What's the most famous dessert served in Aveiro?", "Who was the president of Portugal between 1978 and 1985?". But I also think the best place to tackle this is the pre-training stage. This would require much more Portuguese data. And the team acknowledges that. Final thoughts First of all - I hesitated to write this one. I don't like to criticize anyone's work, especially on the internet. I'm happy Portugal invested in this. We have an incredibly talented team, and they deserve credit. Second - it's very challenging to make a LARGE language model for such a TINY country and "language". The data is limited, but it's out there , we just need to get creative on how we find it. Third - this is a good first step towards an exciting direction. The future is bright for European Portuguese LLMs! We just need to keep our minds, weights, data, and evals - open . When I refer to Portuguese in this post, I mean European Portuguese - it's just shorter - get over it. ↩ On another note - not sure why we included Olmo 2-7B and not Olmo 3-7B in the comparison? ↩ subscribe via email