에이전트 AI 경쟁 속, 딥시크 초저가 모델 출격
중국 AI 연구소 딥시크(Deepseek)가 최대 1.6조 개의 파라미터와 100만 토큰 컨텍스트 윈도우를 지원하는 V4-Pro 및 V4-Flash 모델을 오픈 웨이트로 공개했습니다. 새로운 하이브리드 어텐션 아키텍처를 통해 긴 문맥 처리에 필요한 컴퓨팅 자원을 혁신적으로 줄여, 경쟁사 대비 압도적으로 낮은 가격에 API를 제공하는 것이 핵심입니다. 이는 최근 사용량 제한과 인상된 요금으로 무거워진 AI 시장에 '충분히 좋은(Good-enough)' 초저가 대안을 제시하는 중요한 이벤트입니다.
에이전트 AI 경쟁으로 인해 경쟁사들이 가격을 인상하고 사용량을 제한하는 가운데, 딥시크(Deepseek)는 거의 무료에 가까운 가격으로 '충분히 훌륭한(Good-enough)' 모델을 출시했습니다.
핵심 요약: 중국 AI 연구소인 딥시크는 최대 1.6조 개의 파라미터와 100만 토큰의 컨텍스트 윈도우를 갖춘 V4-Pro 및 V4-Flash를 오픈 웨이트 모델로 공개했습니다. 새로운 아키텍처는 긴 문맥을 처리하는 데 필요한 컴퓨팅 연산량을 획기적으로 줄여, 오픈AI(OpenAI), 구글(Google), 앤스로픽(Anthropic) 등 경쟁사보다 훨씬 낮은 가격에 모델을 제공할 수 있게 했습니다. 이 모델들은 최대 33조 개의 토큰으로 학습되었으며, 자체 전문 모델의 지식 증류(Distillation)를 통해 성능이 개선되었습니다. 특히 에이전트(Agentic) 작업에 최적화되도록 구축되었으며 엔비디아(Nvidia) GPU와 화웨이(Huawei)의 어센드(Ascend) 칩 모두에서 실행됩니다.
본문 번역: 중국 AI 연구소 딥시크는 최대 1.6조 개의 파라미터와 100만 토큰의 컨텍스트 윈도우를 갖춘 두 가지 새로운 모델인 V4-Pro와 V4-Flash를 공개했습니다. 가격 책정은 오픈AI, 구글, 앤스로픽보다 훨씬 낮은 수준입니다. 함께 공개된 기술 논문에서는 학습 데이터, 지식 증류, 하드웨어에 대한 세부 정보도 공개되었습니다.
딥시크는 V4-Pro와 V4-Flash의 프리뷰 버전을 MIT 라이선스에 따라 오픈 웨이트로 공개했습니다. V4-Pro는 총 1.6조 개의 파라미터를 보유하고 있으며 이 중 490억 개가 활성화되고, V4-Flash는 총 2,840억 개의 파라미터 중 130억 개가 활성화됩니다. 두 모델 모두 100만 토큰의 컨텍스트 윈도우를 지원하는 혼합 전문가(Mixture-of-Experts) 모델입니다. 두 모델 모두 허깅페이스(Hugging Face)에서 사용할 수 있습니다.
V4-Pro는 현재 사용 가능한 가장 큰 오픈 웨이트 모델로, Kimi K2.6(1.1조)과 GLM-5.1(7,540억)을 큰 차이로 앞서고 있습니다. 이는 딥시크가 V3 이후 도입한 첫 번째 새로운 아키텍처입니다. 그 사이에 출시된 V3.1, V3.2, R1, R1 0528 등 모든 모델은 여전히 6,850억 파라미터를 기반으로 한 기존 V3 설계를 바탕으로 구축되었습니다.
긴 문맥(Long context) 처리에 필요한 컴퓨팅 연산량 대폭 감소 가장 핵심적인 혁신은 토큰 압축과 딥시크의 희소 어텐션(Sparse attention)을 결합한 새로운 하이브리드 어텐션 아키텍처입니다. 기술 보고서에 따르면, 100만 토큰의 컨텍스트를 처리할 때 V4-Pro는 V3.2에 비해 단 27%의 FLOPs(부동소수점 연산)와 10%의 KV 캐시만 필요합니다. V4-Flash는 이 수치를 더욱 낮춰 FLOPs의 10%, KV 캐시의 7% 수준까지 끌어내렸습니다.
Artificial Analysis의 GDPval-AA 벤치마크에서 V4-Pro는 1,554 Elo 포인트로 GLM-5.1(1,535)과 Kimi K2.6(1,484)을 제치고 모든 오픈 웨이트 모델 중 1위를 차지했습니다. 이는 V3.2 대비 약 355 Elo 포인트가 상승한 수치입니다. 다만, 딥시크는 논문에서 V4-Pro가 "GPT-5.4 및 Gemini-3.1-Pro보다는 약간 뒤처진다"고 인정했으며, 최고 수준의 프론티어 모델보다는 약 3~6개월 정도 뒤처져 있다고 밝혔습니다. Artificial Analysis의 전체 테스트는 아직 진행 중이지만, 딥시크의 자체 벤치마크 결과에서도 이러한 격차가 나타납니다. 참고로, 오픈AI와 앤스로픽은 최근 GPT-5.5와 Opus 4.7이라는 새로운 모델을 출시했습니다.
이러한 효율성 향상은 공격적인 가격 책정을 가능하게 했습니다. 딥시크의 가격 책정 페이지에 따르면, V4-Flash는 백만 입력 토큰당 단 0.14달러, 백만 출력 토큰당 0.28달러로 오픈AI의 GPT-5.4 Nano보다 저렴합니다. V4-Pro는 각각 1.74달러와 3.48달러로 책정되어 Gemini 3.1 Pro, GPT-5.5, Claude Sonnet 4.6을 크게 밑돕니다.
모델 입력 토큰당 비용($/M) 출력 토큰당 비용($/M) Deepseek V4 Flash 0.14 0.28 Deepseek V4 Pro 1.74 3.48 GPT-5.4 2.50 15.00 GPT-5.5 5.00 30.00 Claude Sonnet 4.6 3.00 15.00 Claude Opus 4.6 5.00 25.00 Claude Opus 4.7 5.00 25.00
방대한 데이터와 자체 지식 증류에 의존하는 학습 과정 연구진은 사전 학습 코퍼스(말뭉치)에 대해 비교적 모호하게 설명했습니다. V4-Flash는 32조 개의 토큰, V4-Pro는 33조 개의 토큰을 학습에 사용했습니다. 학습 과정에서는 보다 많은 다국어 데이터, 신중하게 선별된 과학 논문 및 기술 보고서, 그리고 중간 학습(Mid-training) 단계의 에이전트용 데이터에 중점을 두었습니다. 또한, 웹 데이터는 '일괄 자동 생성 및 템플릿 기반 콘텐츠'를 걸러내는 방식으로 필터링되었습니다.
논문에서는 구체적인 데이터 세트나 라이선스 출처를 명시하지 않았습니다. 당연하게도, 딥시크가 GPT나 Claude에서 직접적으로 지식을 증류(Distill)한다는 빈번한 의심은 이 보고서에서 확인되지 않았습니다. 하지만 지식 증류 자체는 모델 개선에 있어 중요한 역할을 한 것으로 보입니다.