IBM, 기업용 모델 '그라나이트 4.1' 3B/8B/30B 공개
IBM이 실제 기업 환경에 즉시 도입할 수 있는 '그라나이트 4.1(Granite 4.1)' 모델 컬렉션을 발표했습니다. 이번 릴리스는 30B 이하의 가벼운 크기임에도 불구하고 명령어 준수 및 도구 호출(Tool calling) 능력에서 기존 32B 모델을 뛰어넘는 비용 효율성을 제공하는 것이 가장 큰 특징입니다. 또한 512K 토큰의 긴 문맥 처리, 최고 수준의 음성 인식, 그리고 엄격한 유해 탐지 기능까지 지원하여 기업용 AI 워크플로우 최적화에 유리합니다.
AI는 점점 더 기업 애플리케이션 및 소프트웨어 워크플로우의 핵심으로 자리 잡고 있습니다. 하지만 오늘날 가장 강력한 AI 시스템조차도 단일 모델이나 단일 기능에만 의존하는 경우는 드뭅니다. 대신 이러한 시스템은 언어 이해, 인식 및 검색, 예측뿐만 아니라 유해 탐지를 위한 가드레일과 같은 엄격한 안전 메커니즘을 포함하여 수많은 기술과 능력을 결합하는 경향이 있습니다. 이 모든 요소들은 긴밀하게 통합된 AI 워크플로우 내에서 함께 작동할 수 있습니다.
이러한 현실을 반영하여, IBM은 오늘 그라나이트(Granite) 모델 패밀리의 최신 버전인 '그라나이트 4.1(Granite 4.1)' 컬렉션을 공개했습니다. 이번 릴리스에는 소규모 언어 모델(SLM)을 비롯하여 Granite 음성(Speech), 비전(Vision), 임베딩(Embeddings), 그리고 가디언(Guardian) 모델이 모두 포함되었습니다. 목표는 개발자들이 이러한 모델을 실제 기업급 AI 시스템에 쉽게 적용하고 활용할 수 있도록 지원하는 것입니다. 또한 이 모델들은 크기가 작음에도 불구하고 강력한 성능을 자랑합니다.
그라나이트 4.1 컬렉션 전반에 걸쳐 도구 호출(Tool calling) 및 명령어 준수(Instruction following)에서 매우 인상적인 언어 모델 성능을 보여주며, Granite Speech 모델을 통한 최고 수준의 전사(Transcription) 정확도, Granite Guardian을 통한 유해 콘텐츠 탐지 기능, 그리고 표 및 차트 데이터 추출에서 Granite Vision이 보여주는 우수한 리더보드 성적 등이 특징입니다.
인상적인 명령어 준수 및 도구 호출 능력을 갖춘 언어 모델 그라나이트 4.1의 핵심은 3B, 8B, 30B 파라미터 크기의 베이스(Base) 및 인스트럭트(Instruct) 모델로 제공되는 차세대 밀집형(Dense) 디코더 전용(Decoder-only) 언어 모델입니다. 모든 크기에서 이 모델들은 비슷한 크기의 기존 Granite 4.0 언어 모델을 크게 능가하는 성능을 보여줍니다. 예를 들어, 연구팀은 새로운 Granite 4.1 8B Instruct 모델이 더 단순하고 유연한 아키텍처를 사용하여 다운스트림(Downstream) 작업에 파인튜닝(Fine-tuning)을 진행했음에도 불구하고, 일관되게 기존 Granite 4.0 32B Mixture-of-Experts 모델과 동등하거나 이를 능가하는 성능을 발휘한다는 것을 발견했습니다.
이 모델들은 또한 기업 사용에 있어서 가장 중요한 두 가지 지표인 '명령어 준수'와 '도구 호출' 부문에서 '생각(Thinking)' 기능이 비활성화된 최신 Gemma 및 Qwen 모델을 포함해 현재 시장에 나와 있는 다른 오픈소스 밀집형 디코더 전용 모델들과도 경쟁력 있는 성능을 보여줍니다.
최근 몇 년간 추론(Reasoning) 모델의 인기가 높아졌지만, 이들의 능력이 항상 결과를 얻는 가장 효율적인 방법은 아닙니다. 기업 환경에서는 토큰(Token) 비용과 속도가 성능만큼이나 중요한 경우가 많습니다. 따라서 기업 사용자의 경우, 명령어 준수 및 도구 호출과 같은 특정 작업에 대해 벤치마크 성능이 비슷하면서도 더 저렴한 비추론(Non-reasoning) 모델을 선택하는 것이 합리적입니다.
그라나이트 4.1 언어 모델의 성능 혁신은 IBM의 훈련 철학에 힘입은 바가 큽니다. 연구팀은 단순히 사용되는 원시 데이터의 양보다 데이터 품질과 단계적 정제(Refinement)를 우선시했습니다. 그라나이트 4.1 모델은 여러 단계에 걸쳐 약 15조 개의 토큰으로 훈련되었습니다. 광범위한 사전 훈련(Pre-training)으로 시작해 명령어 준수에 중점을 둔 고품질의 기술, 과학 및 수학 데이터로 점진적으로 정제(Annealing)해 나갔습니다.
마지막 몇 단계의 훈련을 통해 모델의 문맥(Context) 길이를 최대 512K 토큰까지 확장했습니다. 이를 통해 모델이 제시된 긴 문서를 처리할 수 있을 뿐만 아니라, 짧은 문맥 작업에서도 성능 저하 없이 원활하게 작동할 수 있도록 보장합니다.
사전 훈련 후, 모델은 신중하게 큐레이션된 지도 미세조정(SFT, Supervised Fine-Tuning)과 다단계 강화학습(RL, Reinforcement Learning) 파이프라인을 통해 정제됩니다. 각 강화학습 단계는 모델이 명령어를 얼마나 잘 준수하는지, 대화의 질, 사실적 정확성 또는 수학적 추론 능력 등과 같은 고유한 기능을 타겟팅합니다. 이는 단일 단계 최적화에서 종종 발생하는 상충 관계(Trade-offs)를 방지하는 데 도움이 됩니다. 그 결과 이 모델 패밀리는 단순히 질문에 답하는 것을 넘어, 광범위한 기업 워크로크(Workload) 전반에 걸쳐 안정적으로 동작하도록 설계되었습니다.
IBM의 연구원인 라메스와르 판다(Rameswar Panda)는 다음과 같이 말했습니다. "그라나이트 4.1은 긴 '사고의 사슬(Chain of Thought)'에 의존하지 않고도 경쟁력 있는 명령어 준수 및 도구 호출 성능을 제공하여, 예측 가능한 지연 시간(Latency), 안정적인 토큰 사용량, 그리고 더 낮은 운영 비용을 제공합니다."