IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성
IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.
IBM이 기업용으로 특별히 설계된 오픈소스 언어 모델 패밀리인 'Granite 4.1'을 방금 공개했습니다. 세 가지 크기로 제공되며, Apache 2.0 라이선스를 채택하고 15조 개의 토큰으로 학습되었는데, 그 과정의 집요함은 이해할 가치가 있습니다. 하지만 계속해서 제 머릿속에 맴도는 벤치마크 결과가 하나 있습니다. 바로 8B 모델입니다.
Dense(밀집) 아키텍처를 사용했으며, MoE(Mixture of Experts) 같은 트릭이나 확장된 추론 체인도 없습니다. 그럼에도 불구하고 이 모델은 기본적으로 그들이 실행한 모든 벤치마크에서 기존 'Granite 4.0-H-Small'과 일치하거나 이를 능가하는 성능을 보여줍니다. 기존 모델은 320억(32B) 개의 파라미터와 90억(9B) 개의 활성 파라미터를 가졌습니다. 하지만 이번 4.1 버전은 80억(8B) 개가 전부입니다. 이 결과는 매우 인상적이거나, 아니면 기존 모델이 덜 만들어졌음을 의미합니다. 아마도 둘 다일 것입니다. 과연 IBM이 이 모델을 어떻게 구축했는지, 수치가 실제로 무엇을 말하는지, 그리고 이것이 여러분의 사용 사례에 중요한지 살펴보겠습니다.
목차
- 다시 한번 훑어보게 만든 결과
- 세 가지 크기, 하나의 집착: 실제 구축 방법
- 악영향을 미치기 전에 나쁜 데이터를 걸러낸 필터
다시 한번 훑어보게 만든 결과 Granite 4.1 벤치마크에서 제 발걸음을 멈추게 한 특정 수치가 있습니다. 모델들이 500개의 까다로운 실제 세계 프롬프트를 얼마나 잘 처리하는지 GPT-4가 평가하는 벤치마크인 'ArenaHard'는 실제 채팅 품질을 가늠하는 더 나은 척도 중 하나입니다. 여기서 8B Instruct 모델은 69.0점을 기록했습니다. 이전 세대인 32B MoE 모델(활성 파라미터 9B)보다 점수가 높습니다. 표준 툴 콜링(Tool calling) 벤치마크인 BFCL V3에서도 8B 모델은 68.3점을, 32B MoE 모델은 64.7점을 받았습니다. 초등학교 수준의 수학 추론을 평가하는 GSM8K에서도 8B 모델은 92.5점에 도달했습니다. AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP 등 모든 테스트에서도 마찬가지였습니다. 더 밀집되고, 단순하며, 작은 모델이 지속적으로 승리하고 있습니다.
이는 실제로 IBM이 세대를 거듭하면서 모델 학습 능력이 크게 향상되었음을 의미합니다. 4.0-H-Small이 형편없이 만들어진 것은 아니며, 그때 그들이 가진 최고의 모델이었습니다. 4.1 8B 모델은 단순히 파라미터를 확장하는 대신 그 사이의 기간 동안 데이터 품질에 집착했을 때 어떤 일이 일어나는지를 보여줍니다. 이것이 Granite 4.1이 구축된 모든 과정에 관통하는 핵심 주제입니다.
세 가지 크기, 하나의 집착: 실제 구축 방법 Granite 4.1은 3B, 8B 및 30B 세 가지 버전으로 제공됩니다. 세 가지 모두 동일한 디코더 전용(Dense Transformer) 설계, 동일한 학습 파이프라인 및 동일한 데이터 전략을 사용합니다. 유일한 차이점은 크기뿐입니다. 토큰 수를 부풀리는 MoE 라우팅, 희소 계층(Sparse layers) 또는 확장된 추론 체인이 없습니다. 입력하는 것이 매번 예측 가능하게 처리됩니다. 긴 추론 과정에 의존하는 모델은 비용을 예측하기 어렵고 지연 시간을 예산화하기도 어렵습니다. Granite 4.1은 설계상 이러한 모든 것을 배제했습니다.
하지만 아키텍처가 진짜 이야기의 핵심은 아닙니다. 진짜 이야기는 학습에 사용된 15조 개의 토큰과 이를 얼마나 주의 깊게 다루었는지에 있습니다. IBM은 서로 다른 데이터 혼합, 학습률 스케줄 및 목표를 가진 5개의 독특한 학습 단계를 거쳤습니다. 1단계는 광범위합니다. CommonCrawl 59%, 코드 20%, 수학 7%입니다. 2단계에서는 수학이 35%로, 코드가 30%로 증가합니다. 3단계와 4단계에 이르러서는 최고 품질의 웹 콘텐츠와 함께 사고 chain-of-thought 추론 궤적 및 지시(Instruction) 데이터를 혼합합니다. 5단계에서는 컨텍스트 윈도우를 확장하여, 결국 8B 및 30B 모델의 경우 512K 토큰까지 지원합니다. 대부분의 팀은 데이터 혼합 비율을 정하면 그대로 밀고 나갑니다. IBM은 명확한 의도를 가지고 이를 네 번이나 변경했습니다.
악영향을 미치기 전에 나쁜 데이터를 걸러낸 필터 IBM은 자체적인 설명이 필요할 만큼 데이터 품질 파이프라인에 충분한 시간을 투자했습니다. 사전 학습(Pre-training) 후에는 기본 모델을 실제로 지시를 안정적으로 따르는 무언가로 만들어야 했습니다. 이를 위해서는 바람직한 동작의 예제를 통한 파인튜닝(Fine-tuning)이 필요하지만, 해당 데이터 세트에 있는 나쁜 예제가 단순히 무시되는 것은 아닙니다. 그것이 학습되고 맙니다. 환각(Hallucination)된 대답, 지시를 무시하는 응답, 틀렸지만 자신감 넘치는 계산 등은 모델에 고스란히 학습될 위험이 있습니다.