메뉴
HN
Hacker News 31일 전

IBM 그래니트 4.1, 8B 모델로 32B급 성능 달성

IMP
8/10
핵심 요약

IBM이 기업용 오픈소스 언어 모델인 'Granite 4.1' 3B, 8B, 30B 세 가지 버전을 공개했습니다. 특히 8B(80억 파라미터) 모델은 복잡한 기법 없이도 기존 32B MoE 모델을 압도하는 벤치마크 성능을 기록하며 데이터 품질 중심의 훈련 파이프라인 혁신을 입증했습니다. 15조 개의 토큰과 5단계에 걸친 세밀한 학습, 512K 컨텍스트 윈도우 지원 등 실무적 활용도가 높아 업계에 중요한 시사점을 던집니다.

번역된 본문

IBM이 기업용으로 특별히 설계된 오픈소스 언어 모델 패밀리인 'Granite 4.1'을 방금 공개했습니다. 세 가지 크기로 제공되며, Apache 2.0 라이선스를 채택하고 15조 개의 토큰으로 학습되었는데, 그 과정의 집요함은 이해할 가치가 있습니다. 하지만 계속해서 제 머릿속에 맴도는 벤치마크 결과가 하나 있습니다. 바로 8B 모델입니다.

Dense(밀집) 아키텍처를 사용했으며, MoE(Mixture of Experts) 같은 트릭이나 확장된 추론 체인도 없습니다. 그럼에도 불구하고 이 모델은 기본적으로 그들이 실행한 모든 벤치마크에서 기존 'Granite 4.0-H-Small'과 일치하거나 이를 능가하는 성능을 보여줍니다. 기존 모델은 320억(32B) 개의 파라미터와 90억(9B) 개의 활성 파라미터를 가졌습니다. 하지만 이번 4.1 버전은 80억(8B) 개가 전부입니다. 이 결과는 매우 인상적이거나, 아니면 기존 모델이 덜 만들어졌음을 의미합니다. 아마도 둘 다일 것입니다. 과연 IBM이 이 모델을 어떻게 구축했는지, 수치가 실제로 무엇을 말하는지, 그리고 이것이 여러분의 사용 사례에 중요한지 살펴보겠습니다.

목차

  • 다시 한번 훑어보게 만든 결과
  • 세 가지 크기, 하나의 집착: 실제 구축 방법
  • 악영향을 미치기 전에 나쁜 데이터를 걸러낸 필터

다시 한번 훑어보게 만든 결과 Granite 4.1 벤치마크에서 제 발걸음을 멈추게 한 특정 수치가 있습니다. 모델들이 500개의 까다로운 실제 세계 프롬프트를 얼마나 잘 처리하는지 GPT-4가 평가하는 벤치마크인 'ArenaHard'는 실제 채팅 품질을 가늠하는 더 나은 척도 중 하나입니다. 여기서 8B Instruct 모델은 69.0점을 기록했습니다. 이전 세대인 32B MoE 모델(활성 파라미터 9B)보다 점수가 높습니다. 표준 툴 콜링(Tool calling) 벤치마크인 BFCL V3에서도 8B 모델은 68.3점을, 32B MoE 모델은 64.7점을 받았습니다. 초등학교 수준의 수학 추론을 평가하는 GSM8K에서도 8B 모델은 92.5점에 도달했습니다. AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP 등 모든 테스트에서도 마찬가지였습니다. 더 밀집되고, 단순하며, 작은 모델이 지속적으로 승리하고 있습니다.

이는 실제로 IBM이 세대를 거듭하면서 모델 학습 능력이 크게 향상되었음을 의미합니다. 4.0-H-Small이 형편없이 만들어진 것은 아니며, 그때 그들이 가진 최고의 모델이었습니다. 4.1 8B 모델은 단순히 파라미터를 확장하는 대신 그 사이의 기간 동안 데이터 품질에 집착했을 때 어떤 일이 일어나는지를 보여줍니다. 이것이 Granite 4.1이 구축된 모든 과정에 관통하는 핵심 주제입니다.

세 가지 크기, 하나의 집착: 실제 구축 방법 Granite 4.1은 3B, 8B 및 30B 세 가지 버전으로 제공됩니다. 세 가지 모두 동일한 디코더 전용(Dense Transformer) 설계, 동일한 학습 파이프라인 및 동일한 데이터 전략을 사용합니다. 유일한 차이점은 크기뿐입니다. 토큰 수를 부풀리는 MoE 라우팅, 희소 계층(Sparse layers) 또는 확장된 추론 체인이 없습니다. 입력하는 것이 매번 예측 가능하게 처리됩니다. 긴 추론 과정에 의존하는 모델은 비용을 예측하기 어렵고 지연 시간을 예산화하기도 어렵습니다. Granite 4.1은 설계상 이러한 모든 것을 배제했습니다.

하지만 아키텍처가 진짜 이야기의 핵심은 아닙니다. 진짜 이야기는 학습에 사용된 15조 개의 토큰과 이를 얼마나 주의 깊게 다루었는지에 있습니다. IBM은 서로 다른 데이터 혼합, 학습률 스케줄 및 목표를 가진 5개의 독특한 학습 단계를 거쳤습니다. 1단계는 광범위합니다. CommonCrawl 59%, 코드 20%, 수학 7%입니다. 2단계에서는 수학이 35%로, 코드가 30%로 증가합니다. 3단계와 4단계에 이르러서는 최고 품질의 웹 콘텐츠와 함께 사고 chain-of-thought 추론 궤적 및 지시(Instruction) 데이터를 혼합합니다. 5단계에서는 컨텍스트 윈도우를 확장하여, 결국 8B 및 30B 모델의 경우 512K 토큰까지 지원합니다. 대부분의 팀은 데이터 혼합 비율을 정하면 그대로 밀고 나갑니다. IBM은 명확한 의도를 가지고 이를 네 번이나 변경했습니다.

악영향을 미치기 전에 나쁜 데이터를 걸러낸 필터 IBM은 자체적인 설명이 필요할 만큼 데이터 품질 파이프라인에 충분한 시간을 투자했습니다. 사전 학습(Pre-training) 후에는 기본 모델을 실제로 지시를 안정적으로 따르는 무언가로 만들어야 했습니다. 이를 위해서는 바람직한 동작의 예제를 통한 파인튜닝(Fine-tuning)이 필요하지만, 해당 데이터 세트에 있는 나쁜 예제가 단순히 무시되는 것은 아닙니다. 그것이 학습되고 맙니다. 환각(Hallucination)된 대답, 지시를 무시하는 응답, 틀렸지만 자신감 넘치는 계산 등은 모델에 고스란히 학습될 위험이 있습니다.

원문 보기
원문 보기 (영어)
Home Tech Granite 4.1: IBM's 8B Model Is Competing With Models Four Times Its... Granite 4.1: IBM's 8B Model Is Competing With Models Four Times Its Size By Mohit Geryani April 30, 2026 0 Last updated: April 30, 2026 Share Facebook Twitter Pinterest WhatsApp - Advertisement - IBM just released Granite 4.1, a family of open source language models built specifically for enterprise use. Three sizes, Apache 2.0 licensed and trained on 15 trillion tokens with a level of pipeline obsession that's worth understanding. But there's one result in the benchmarks I keep coming back to. The 8B model. Dense architecture, no MoE tricks, no extended reasoning chains. It matches or beats Granite 4.0-H-Small across basically every benchmark they ran. That older model has 32B parameters with 9B active. This one has 8 billion. Full stop. That result is either very impressive or it means the old model was underbuilt. Probably both. Here's how they built it, what the numbers actually say, and whether any of it matters for your use case. Table of Contents The result that makes you do a double take There's a specific number in the Granite 4.1 benchmarks that stopped me. On ArenaHard, a benchmark where models are judged by GPT-4 on how well they handle 500 challenging real-world prompts, it's one of the better proxies for actual chat quality. The 8B instruct scores 69.0 there. The previous generation Granite 4.0-H-Small, a 32B MoE model with 9B active parameters, scored lower. On BFCL V3, the standard tool calling benchmark. The 8B scores 68.3, the 32B MoE scores 64.7. GSM8K is grade-school math reasoning, and the 8B hits 92.5 there too. Across AlpacaEval, MMLU-Pro, BBH, EvalPlus, MBPP. same thing throughout. A denser, simpler, smaller model is winning. Consistently. It actually means IBM got significantly better at training between generations. The 4.0-H-Small wasn't badly built, it was the best they had at the time. The 4.1 8B is what happens when you spend the intervening period obsessing over data quality instead of just scaling parameters. That's the thread running through everything about how Granite 4.1 was built. Three sizes, one obsession: how they actually built this Granite 4.1 comes in 3B, 8B, and 30B. All three use the same decoder-only dense transformer design, the same training pipeline and same data strategy. The only difference between them is size. No MoE routing, sparse layers or extended reasoning chains that inflate token counts. What you send in is what gets processed, predictably, every time. Models that lean on long reasoning traces are harder to cost-predict and harder to latency-budget. Granite 4.1 skips all of that by design. But the architecture isn't really the story. The story is the 15 trillion tokens they trained on and how carefully they handled them. IBM ran five distinct training phases with different data mixtures, different learning rate schedules, and different goals. Phase 1 is broad: CommonCrawl at 59%, code at 20%, math at 7%. By Phase 2, math has jumped to 35% and code to 30%. By Phases 3 and 4, they're blending in chain-of-thought reasoning trajectories and instruction data alongside the highest-quality web content they have. Phase 5 extends the context window, eventually to 512K tokens for the 8B and 30B. Most teams pick a data mix and stick with it. IBM changed theirs four times with clear intent each time. Granite 4.1 Family You May Like: Laguna XS.2 Feels Like a Model That Was Never Meant to Be Public. It Now Is. The filter that rejected bad data before it could do damage IBM spent enough time on their data quality pipeline that it deserves its own explanation. After pre-training, they needed to turn the base model into something that actually follows instructions reliably. That requires fine-tuning on examples of good behavior but bad examples in that dataset don't just get ignored. They get learned. A hallucinated answer, a response that ignores the instruction, a calculation that's wrong but confident, the model treats all of it as signal. So IBM built a filtering system before a single fine-tuning sample touched the model. An LLM-as-Judge evaluated every assistant response across six dimensions including instruction following, correctness, completeness, conciseness, naturalness, and calibration. Each response got scored, and samples that fell below threshold got cut. But some things triggered automatic rejection regardless of score, hallucinations, false premises, incorrect computations. No partial credit for those. The judge wasn't reading prompts or user inputs in isolation. It was evaluating what the model said given the full context it had access to. In RAG settings, if the response wasn't grounded in the retrieved documents, that counted as a hallucination. In tool-calling scenarios, outputs were checked against the allowed tools and their parameter schemas. On top of that, a separate rule-based pipeline checked structure like length, formatting, schema validation, deduplication across the entire dataset. Everything was logged and auditable. What came out the other side was 4.1 million samples. That sounds like a lot. For context, it's a deliberately curated 4.1 million. Four rounds of RL and why they needed all of them This is the part of the Granite 4.1 paper that I find most interesting, mostly because it's honest about something going wrong mid-training and how they fixed it. After fine-tuning, IBM ran reinforcement learning in four sequential stages. The first stage trained the model jointly across nine domains at once including math, science, logical reasoning, instruction following, structured output, text-to-SQL, temporal reasoning, general chat, and in-context learning. The reason for doing all of them together is that joint training prevents the model from forgetting earlier domains as it gets better at later ones. Every gradient update sees the full range of tasks. Stage two was RLHF training on general chat prompts using a reward model to improve helpfulness. This worked. AlpacaEval scores jumped around 18.9 points on average compared to the fine-tuned checkpoints. Then something broke. The RLHF stage, while improving chat quality, caused math benchmark scores to drop. GSM8K and DeepMind-Math both regressed. Stage three was a short identity and knowledge calibration run about 40 training steps to stabilize how the model represents itself and what it knows. Small stage, measurable improvement on self-identification. Stage four was a dedicated math RL run specifically to recover what RLHF had damaged. It worked, GSM8K recovered and surpassed the fine-tuned baseline by around 3.8 points on average. DeepMind-Math recovered by around 23.5 points on average. You May Like: Open Source Tools That Do What Your OS Should Have Done Already The benchmarks The 30B sits at the top of IBM's own BFCL V3 tool calling chart at 73.7, ahead of Gemma-4-31B at 72.7. That's a legitimate leaderboard result, not a cherry-picked internal comparison. The 8B at 68.3 beats the previous Granite 4.0-H-Small at 64.7, and the 3B at 60.8 still clears Qwen3-8B at 60.2, a model twice its size. On instruction following via IFEval, Gemma leads at 94.1 and that's worth saying plainly. But the 8B at 87.1 is essentially tied with Qwen3.5-9B at 87.2, and the 30B at 89.7 beats every Qwen model on the chart regardless of size. On math, the 8B hits 92.5 on GSM8K and 80.1 on DeepMind-Math. The 30B pushes those to 94.2 and 81.9. On coding, EvalPlus puts the 8B at 80.2 and the 30B at 82.7. MBPP+ scores 70.6 and 71.7 respectively. The 3B is the quiet story here. 82.1 on IFEval, 87.0 on GSM8K, 60.8 on BFCL V3. For something running at that parameter count, those numbers are hard to ignore if you're thinking about edge deployment or cost-constrained inference. One honest caveat across all of this, the comparison charts are IBM's own, using their own evaluation harness. The absolute numbers are plausible and consistent with what third parties have repo