메뉴
BL
r/LocalLLaMA 31일 전

IBM, 기업용 모델 '그라나이트 4.1' 3B/8B/30B 공개

IMP
7/10
핵심 요약

IBM이 실제 기업 환경에 즉시 도입할 수 있는 '그라나이트 4.1(Granite 4.1)' 모델 컬렉션을 발표했습니다. 이번 릴리스는 30B 이하의 가벼운 크기임에도 불구하고 명령어 준수 및 도구 호출(Tool calling) 능력에서 기존 32B 모델을 뛰어넘는 비용 효율성을 제공하는 것이 가장 큰 특징입니다. 또한 512K 토큰의 긴 문맥 처리, 최고 수준의 음성 인식, 그리고 엄격한 유해 탐지 기능까지 지원하여 기업용 AI 워크플로우 최적화에 유리합니다.

번역된 본문

AI는 점점 더 기업 애플리케이션 및 소프트웨어 워크플로우의 핵심으로 자리 잡고 있습니다. 하지만 오늘날 가장 강력한 AI 시스템조차도 단일 모델이나 단일 기능에만 의존하는 경우는 드뭅니다. 대신 이러한 시스템은 언어 이해, 인식 및 검색, 예측뿐만 아니라 유해 탐지를 위한 가드레일과 같은 엄격한 안전 메커니즘을 포함하여 수많은 기술과 능력을 결합하는 경향이 있습니다. 이 모든 요소들은 긴밀하게 통합된 AI 워크플로우 내에서 함께 작동할 수 있습니다.

이러한 현실을 반영하여, IBM은 오늘 그라나이트(Granite) 모델 패밀리의 최신 버전인 '그라나이트 4.1(Granite 4.1)' 컬렉션을 공개했습니다. 이번 릴리스에는 소규모 언어 모델(SLM)을 비롯하여 Granite 음성(Speech), 비전(Vision), 임베딩(Embeddings), 그리고 가디언(Guardian) 모델이 모두 포함되었습니다. 목표는 개발자들이 이러한 모델을 실제 기업급 AI 시스템에 쉽게 적용하고 활용할 수 있도록 지원하는 것입니다. 또한 이 모델들은 크기가 작음에도 불구하고 강력한 성능을 자랑합니다.

그라나이트 4.1 컬렉션 전반에 걸쳐 도구 호출(Tool calling) 및 명령어 준수(Instruction following)에서 매우 인상적인 언어 모델 성능을 보여주며, Granite Speech 모델을 통한 최고 수준의 전사(Transcription) 정확도, Granite Guardian을 통한 유해 콘텐츠 탐지 기능, 그리고 표 및 차트 데이터 추출에서 Granite Vision이 보여주는 우수한 리더보드 성적 등이 특징입니다.

인상적인 명령어 준수 및 도구 호출 능력을 갖춘 언어 모델 그라나이트 4.1의 핵심은 3B, 8B, 30B 파라미터 크기의 베이스(Base) 및 인스트럭트(Instruct) 모델로 제공되는 차세대 밀집형(Dense) 디코더 전용(Decoder-only) 언어 모델입니다. 모든 크기에서 이 모델들은 비슷한 크기의 기존 Granite 4.0 언어 모델을 크게 능가하는 성능을 보여줍니다. 예를 들어, 연구팀은 새로운 Granite 4.1 8B Instruct 모델이 더 단순하고 유연한 아키텍처를 사용하여 다운스트림(Downstream) 작업에 파인튜닝(Fine-tuning)을 진행했음에도 불구하고, 일관되게 기존 Granite 4.0 32B Mixture-of-Experts 모델과 동등하거나 이를 능가하는 성능을 발휘한다는 것을 발견했습니다.

이 모델들은 또한 기업 사용에 있어서 가장 중요한 두 가지 지표인 '명령어 준수'와 '도구 호출' 부문에서 '생각(Thinking)' 기능이 비활성화된 최신 Gemma 및 Qwen 모델을 포함해 현재 시장에 나와 있는 다른 오픈소스 밀집형 디코더 전용 모델들과도 경쟁력 있는 성능을 보여줍니다.

최근 몇 년간 추론(Reasoning) 모델의 인기가 높아졌지만, 이들의 능력이 항상 결과를 얻는 가장 효율적인 방법은 아닙니다. 기업 환경에서는 토큰(Token) 비용과 속도가 성능만큼이나 중요한 경우가 많습니다. 따라서 기업 사용자의 경우, 명령어 준수 및 도구 호출과 같은 특정 작업에 대해 벤치마크 성능이 비슷하면서도 더 저렴한 비추론(Non-reasoning) 모델을 선택하는 것이 합리적입니다.

그라나이트 4.1 언어 모델의 성능 혁신은 IBM의 훈련 철학에 힘입은 바가 큽니다. 연구팀은 단순히 사용되는 원시 데이터의 양보다 데이터 품질과 단계적 정제(Refinement)를 우선시했습니다. 그라나이트 4.1 모델은 여러 단계에 걸쳐 약 15조 개의 토큰으로 훈련되었습니다. 광범위한 사전 훈련(Pre-training)으로 시작해 명령어 준수에 중점을 둔 고품질의 기술, 과학 및 수학 데이터로 점진적으로 정제(Annealing)해 나갔습니다.

마지막 몇 단계의 훈련을 통해 모델의 문맥(Context) 길이를 최대 512K 토큰까지 확장했습니다. 이를 통해 모델이 제시된 긴 문서를 처리할 수 있을 뿐만 아니라, 짧은 문맥 작업에서도 성능 저하 없이 원활하게 작동할 수 있도록 보장합니다.

사전 훈련 후, 모델은 신중하게 큐레이션된 지도 미세조정(SFT, Supervised Fine-Tuning)과 다단계 강화학습(RL, Reinforcement Learning) 파이프라인을 통해 정제됩니다. 각 강화학습 단계는 모델이 명령어를 얼마나 잘 준수하는지, 대화의 질, 사실적 정확성 또는 수학적 추론 능력 등과 같은 고유한 기능을 타겟팅합니다. 이는 단일 단계 최적화에서 종종 발생하는 상충 관계(Trade-offs)를 방지하는 데 도움이 됩니다. 그 결과 이 모델 패밀리는 단순히 질문에 답하는 것을 넘어, 광범위한 기업 워크로크(Workload) 전반에 걸쳐 안정적으로 동작하도록 설계되었습니다.

IBM의 연구원인 라메스와르 판다(Rameswar Panda)는 다음과 같이 말했습니다. "그라나이트 4.1은 긴 '사고의 사슬(Chain of Thought)'에 의존하지 않고도 경쟁력 있는 명령어 준수 및 도구 호출 성능을 제공하여, 예측 가능한 지연 시간(Latency), 안정적인 토큰 사용량, 그리고 더 낮은 운영 비용을 제공합니다."

원문 보기
원문 보기 (영어)
AI is increasingly at the heart of enterprise applications and software workflows. But even today’s most powerful AI systems rarely rely on a single model or capability. Instead, these systems tend to combine myriad technologies and abilities, including understanding language, perception and retrieval, as well as forecasting, and rigorous safety mechanisms, such as guardrails for harm detection. All of these can work together in tightly integrated AI workflows. That’s why today IBM released the Granite 4.1 collection, the latest versions of its family of Granite models, that reflect this reality. The release covers small language models (SLMs), as well as Granite speech, vision, embeddings, and Guardian models. The aim is for developers to easily consume these models in real-world, enterprise grade AI systems. And despite their size, these models pack a punch. Across the collection, Granite 4.1 features impressive language model performance in tool calling and instruction following; state-of-the-art transcription accuracy performance for the Granite speech models; harm detection capabilities delivered via Granite Guardian; and high leaderboard performance for Granite vision in table and chart extraction. Language models with impressive instruction following and tool calling capabilities At the heart of Granite 4.1 is a new generation of dense, decoder‑only language models, offered in 3B, 8B, and 30B parameter base and instruct model sizes. Across weight classes, the models significantly outperform similarly sized Granite 4.0 language models. The team found, for example, that the new Granite 4.1 8B instruct model consistently matches or outperforms the Granite 4.0 32B Mixture‑of‑Experts model, while using a simpler — and therefore more flexible — architecture for fine tuning for downstream tasks. These models also perform competitively with other open-source, dense, decoder-only models on the market today, including the most recent Gemma and Qwen models, with thinking disabled, in two important metrics for enterprise use: instruction following and tool calling. While reasoning models have grown in popularity in recent years, their abilities aren’t always the most efficient way to get a result. In enterprise settings, token costs and speed are often as important as performance. That is why turning to less expensive, non-reasoning models with similar benchmark performance for select tasks like instruction following and tool calling makes sense for enterprise users. The performance breakthrough in the Granite 4.1 language models was driven by IBM’s training philosophy. The team prioritized data quality and staged refinement over just the raw amount of data used. The Granite 4.1 models are trained on approximately 15 trillion tokens across multiple phases, beginning with broad pre-training and progressively annealing toward higher-quality, technical, scientific and mathematical data that’s focused on instruction following. The last few training stages help extend the models’ context length to as much as 512K tokens, which ensures the models can work through long documents they’re presented with — without any performance hit on shorter-context tasks. After pre-training, the models are refined through carefully curated supervised fine-tuning and a multi‑stage reinforcement learning (RL) pipeline. Each RL phase targets a distinct capability — such as how well the models can adhere to instructions, the quality of their ability to hold a conversation, factual accuracy, or mathematical reasoning. This helps to avoid the trade‑offs often introduced in single‑stage optimization. The result is a model family designed not just to answer questions, but to behave reliably across a wide range of enterprise workloads. “Granite 4.1 delivers competitive instruction‑following and tool‑calling performance without relying on long chains of thought, offering predictable latency, stable token usage, and lower operational cost,” said Rameswar Panda, a distinguished engineer at IBM Research and the key architect of the Granite language models. “This makes it a strong, production‑ready choice for enterprise workloads, where efficiency and reliability matter most.” Enterprise AI workflows handle more than just text Alongside the language models, IBM is releasing updated models across several modalities that commonly appear in end‑to‑end AI systems. These models are also more than capable of handling tasks on their own. Granite Vision 4.1 This generation of Granite Vision is a vision-language model (VLM) that was specifically designed for document understanding tasks, and in particular understanding information in tables, charts, and key-value pair (KVP) extraction, which includes important structured business information stored in documents, such as invoice numbers, dates, or names. “These tasks are essential for automated enterprise pipelines,” said Eli Schwartz, a research manager with the IBM Research multimodal AI group. “Granite Vision can serve as an alternative to frontier models to perform these tasks at scale and at a fraction of the cost.” There are two main components driving Granite Vision 4.1’s performance. The first is a feature injection scheme inspired by DeepStack that distributes visual information across multiple LLM layers, combining semantic grounding with fine-grained spatial detail. The second is the dataset used to train the model. Relying on real examples, as well as synthetically generated KVP, table, and chart data, the team specifically trained Granite Vision 4.1 with enterprise use cases in mind. The team took a similar approach to training these models as their previous versions , albeit with a large increase in training data. The result is models that are now outpacing any other similarly sized models available today. Along with Granite Vision 4.1, the team also recently released ChartNet , a million-scale high quality dataset designed for robust chart understanding. ChartNet was created using a novel code‑guided augmentation methodology and has been used for training Granite Vision 4.1. Granite Speech 4.1 Alongside vision, IBM Research is releasing a host of Granite Speech 4.1 models. The new models introduce multilingual speech recognition and translation models tuned for use cases on the edge, offering different tradeoffs between throughput, latency, and transcription richness. Granite Speech 4.1 2B achieves a 5.33% word-error rate (WER), placing it among the top models on the OpenASR Leaderboard . Two additional variants are being released alongside it : Granite Speech 4.1 2B Plus, which adds richer transcription features, and Granite Speech 4.1 2B NAR which trades some of those features for substantially higher throughput. Most transformer models today are autoregressive — meaning they generate one token at a time — but Granite Speech 4.1 2B NAR generates entire sequences at once. The team at IBM Research found that this new structure results in considerably better GPU utilization and a much higher throughput. The team plans to use this new format for even more models in the future. The new speech models build on a pedigree of models that are punching above their weight. Recently, a team at IBM and Australia’s Royal Flying Doctor Service used an earlier version of Granite Speech to build a transcription engine for clinicians working in the noisy environment found on airplanes. The team chose Granite Speech because it proved in testing to be far better at handling the background noise than any other commercial models available. Granite Guardian 4.1 Another key element of this release is Granite Guardian 4.1. This new model is a direct replacement for Granite Guardian 3.3 8B, and was fine-tuned on top of Granite 4.1 8B. It expands on its predecessor with additional risk definitions, giving developers a more nuanced signal when evaluating model inputs and outputs. Like previous Guardian versions, it's designed to act as a moderator model wi