메뉴
BL
The Decoder 37일 전

에이전트 AI 경쟁 속, 딥시크 초저가 모델 출격

IMP
9/10
핵심 요약

중국 AI 연구소 딥시크(Deepseek)가 최대 1.6조 개의 파라미터와 100만 토큰 컨텍스트 윈도우를 지원하는 V4-Pro 및 V4-Flash 모델을 오픈 웨이트로 공개했습니다. 새로운 하이브리드 어텐션 아키텍처를 통해 긴 문맥 처리에 필요한 컴퓨팅 자원을 혁신적으로 줄여, 경쟁사 대비 압도적으로 낮은 가격에 API를 제공하는 것이 핵심입니다. 이는 최근 사용량 제한과 인상된 요금으로 무거워진 AI 시장에 '충분히 좋은(Good-enough)' 초저가 대안을 제시하는 중요한 이벤트입니다.

번역된 본문

에이전트 AI 경쟁으로 인해 경쟁사들이 가격을 인상하고 사용량을 제한하는 가운데, 딥시크(Deepseek)는 거의 무료에 가까운 가격으로 '충분히 훌륭한(Good-enough)' 모델을 출시했습니다.

핵심 요약: 중국 AI 연구소인 딥시크는 최대 1.6조 개의 파라미터와 100만 토큰의 컨텍스트 윈도우를 갖춘 V4-Pro 및 V4-Flash를 오픈 웨이트 모델로 공개했습니다. 새로운 아키텍처는 긴 문맥을 처리하는 데 필요한 컴퓨팅 연산량을 획기적으로 줄여, 오픈AI(OpenAI), 구글(Google), 앤스로픽(Anthropic) 등 경쟁사보다 훨씬 낮은 가격에 모델을 제공할 수 있게 했습니다. 이 모델들은 최대 33조 개의 토큰으로 학습되었으며, 자체 전문 모델의 지식 증류(Distillation)를 통해 성능이 개선되었습니다. 특히 에이전트(Agentic) 작업에 최적화되도록 구축되었으며 엔비디아(Nvidia) GPU와 화웨이(Huawei)의 어센드(Ascend) 칩 모두에서 실행됩니다.

본문 번역: 중국 AI 연구소 딥시크는 최대 1.6조 개의 파라미터와 100만 토큰의 컨텍스트 윈도우를 갖춘 두 가지 새로운 모델인 V4-Pro와 V4-Flash를 공개했습니다. 가격 책정은 오픈AI, 구글, 앤스로픽보다 훨씬 낮은 수준입니다. 함께 공개된 기술 논문에서는 학습 데이터, 지식 증류, 하드웨어에 대한 세부 정보도 공개되었습니다.

딥시크는 V4-Pro와 V4-Flash의 프리뷰 버전을 MIT 라이선스에 따라 오픈 웨이트로 공개했습니다. V4-Pro는 총 1.6조 개의 파라미터를 보유하고 있으며 이 중 490억 개가 활성화되고, V4-Flash는 총 2,840억 개의 파라미터 중 130억 개가 활성화됩니다. 두 모델 모두 100만 토큰의 컨텍스트 윈도우를 지원하는 혼합 전문가(Mixture-of-Experts) 모델입니다. 두 모델 모두 허깅페이스(Hugging Face)에서 사용할 수 있습니다.

V4-Pro는 현재 사용 가능한 가장 큰 오픈 웨이트 모델로, Kimi K2.6(1.1조)과 GLM-5.1(7,540억)을 큰 차이로 앞서고 있습니다. 이는 딥시크가 V3 이후 도입한 첫 번째 새로운 아키텍처입니다. 그 사이에 출시된 V3.1, V3.2, R1, R1 0528 등 모든 모델은 여전히 6,850억 파라미터를 기반으로 한 기존 V3 설계를 바탕으로 구축되었습니다.

긴 문맥(Long context) 처리에 필요한 컴퓨팅 연산량 대폭 감소 가장 핵심적인 혁신은 토큰 압축과 딥시크의 희소 어텐션(Sparse attention)을 결합한 새로운 하이브리드 어텐션 아키텍처입니다. 기술 보고서에 따르면, 100만 토큰의 컨텍스트를 처리할 때 V4-Pro는 V3.2에 비해 단 27%의 FLOPs(부동소수점 연산)와 10%의 KV 캐시만 필요합니다. V4-Flash는 이 수치를 더욱 낮춰 FLOPs의 10%, KV 캐시의 7% 수준까지 끌어내렸습니다.

Artificial Analysis의 GDPval-AA 벤치마크에서 V4-Pro는 1,554 Elo 포인트로 GLM-5.1(1,535)과 Kimi K2.6(1,484)을 제치고 모든 오픈 웨이트 모델 중 1위를 차지했습니다. 이는 V3.2 대비 약 355 Elo 포인트가 상승한 수치입니다. 다만, 딥시크는 논문에서 V4-Pro가 "GPT-5.4 및 Gemini-3.1-Pro보다는 약간 뒤처진다"고 인정했으며, 최고 수준의 프론티어 모델보다는 약 3~6개월 정도 뒤처져 있다고 밝혔습니다. Artificial Analysis의 전체 테스트는 아직 진행 중이지만, 딥시크의 자체 벤치마크 결과에서도 이러한 격차가 나타납니다. 참고로, 오픈AI와 앤스로픽은 최근 GPT-5.5와 Opus 4.7이라는 새로운 모델을 출시했습니다.

이러한 효율성 향상은 공격적인 가격 책정을 가능하게 했습니다. 딥시크의 가격 책정 페이지에 따르면, V4-Flash는 백만 입력 토큰당 단 0.14달러, 백만 출력 토큰당 0.28달러로 오픈AI의 GPT-5.4 Nano보다 저렴합니다. V4-Pro는 각각 1.74달러와 3.48달러로 책정되어 Gemini 3.1 Pro, GPT-5.5, Claude Sonnet 4.6을 크게 밑돕니다.

모델 입력 토큰당 비용($/M) 출력 토큰당 비용($/M) Deepseek V4 Flash 0.14 0.28 Deepseek V4 Pro 1.74 3.48 GPT-5.4 2.50 15.00 GPT-5.5 5.00 30.00 Claude Sonnet 4.6 3.00 15.00 Claude Opus 4.6 5.00 25.00 Claude Opus 4.7 5.00 25.00

방대한 데이터와 자체 지식 증류에 의존하는 학습 과정 연구진은 사전 학습 코퍼스(말뭉치)에 대해 비교적 모호하게 설명했습니다. V4-Flash는 32조 개의 토큰, V4-Pro는 33조 개의 토큰을 학습에 사용했습니다. 학습 과정에서는 보다 많은 다국어 데이터, 신중하게 선별된 과학 논문 및 기술 보고서, 그리고 중간 학습(Mid-training) 단계의 에이전트용 데이터에 중점을 두었습니다. 또한, 웹 데이터는 '일괄 자동 생성 및 템플릿 기반 콘텐츠'를 걸러내는 방식으로 필터링되었습니다.

논문에서는 구체적인 데이터 세트나 라이선스 출처를 명시하지 않았습니다. 당연하게도, 딥시크가 GPT나 Claude에서 직접적으로 지식을 증류(Distill)한다는 빈번한 의심은 이 보고서에서 확인되지 않았습니다. 하지만 지식 증류 자체는 모델 개선에 있어 중요한 역할을 한 것으로 보입니다.

원문 보기
원문 보기 (영어)
As agentic AI pushes rivals to raise prices and cap usage, Deepseek ships a good-enough model for almost nothing Maximilian Schreiner View the LinkedIn Profile of Maximilian Schreiner Apr 24, 2026 Nano Banana Pro prompted by THE DECODER Key Points Chinese AI lab Deepseek has released V4-Pro and V4-Flash as open-weight models with up to 1.6 trillion parameters and a one-million-token context window. A new architecture dramatically cuts the compute required for long contexts, letting Deepseek price both models well below competitors like OpenAI, Google, and Anthropic. The models were trained on up to 33 trillion tokens and refined through distillation from in-house specialist models. They're built specifically for agentic tasks and run on both Nvidia GPUs and Huawei's Ascend chips. Ask about this article… Search Chinese AI lab Deepseek has released V4-Pro and V4-Flash, two new models with up to 1.6 trillion parameters and a one-million-token context window. Pricing sits well below OpenAI, Google, and Anthropic. The accompanying technical paper also reveals details about training data, distillation, and hardware. Deepseek has published preview versions of V4-Pro and V4-Flash as open weights under the MIT license. V4-Pro has 1.6 trillion total parameters with 49 billion active, while V4-Flash comes in at 284 billion total with 13 billion active. Both are mixture-of-experts models with a one-million-token context window. Both are available on Hugging Face . V4-Pro is now the largest open-weights model available, surpassing Kimi K2.6 (1.1 trillion) and GLM-5.1 (754 billion) by a wide margin. It's also Deepseek's first new architecture since V3. Every model released in between - V3.1, V3.2, R1, and R1 0528 - was still built on the original V3 design with 685 billion parameters. Ad Long contexts now require far less compute The key innovation is a new hybrid attention architecture that combines token compression with Deepseek's sparse attention. According to the technical report , V4-Pro needs just 27 percent of the FLOPs and 10 percent of the KV cache compared to V3.2 when processing a one-million-token context. V4-Flash pushes those numbers even lower - down to 10 percent of the FLOPs and 7 percent of the KV cache. Ad DEC_D_Incontent-1 On Artificial Analysis's GDPval-AA benchmark, V4-Pro leads all open-weights models with 1,554 Elo points, ahead of GLM-5.1 (1,535) and Kimi K2.6 (1,484). That's a jump of roughly 355 Elo points over V3.2. Deepseek acknowledges in the paper, though, that V4-Pro "falls slightly behind GPT-5.4 and Gemini-3.1-Pro" and trails frontier models by about three to six months. Full testing by Artificial Analysis is still underway, but some of Deepseek's own benchmark results show the gap. OpenAI and Anthropic have since released new models with GPT-5.5 and Opus 4.7 . Ad These efficiency gains explain the aggressive pricing. V4-Flash costs just $0.14 per million input tokens and $0.28 per million output tokens according to Deepseek's pricing page , making it cheaper than OpenAI's GPT-5.4 Nano. V4-Pro comes in at $1.74 and $3.48, significantly undercutting Gemini 3.1 Pro, GPT-5.5, and Claude Sonnet 4.6. Model Input ($/M) Output ($/M) Deepseek V4 Flash 0,14 0,28 Deepseek V4 Pro 1,74 3,48 GPT-5.4 2,50 15 GPT-5.5 5 30 Claude Sonnet 4.6 3 15 Claude Opus 4.6 5 25 Claude Opus 4.7 5 25 Training relies on massive data and in-house distillation The team is relatively vague about the pre-training corpus: V4-Flash saw 32 trillion tokens, V4-Pro 33 trillion. The focus was on more multilingual data, carefully curated scientific papers and technical reports, and agentic data during mid-training. Web data was filtered against "batched auto-generated and templated content." Ad DEC_D_Incontent-2 The paper doesn't name specific datasets or license sources. The frequently raised suspicion that Deepseek distills directly from GPT or Claude finds no confirmation in the report, unsurprisingly. Ad Distillation does play a central role in post-training, though. Deepseek has completely replaced its previous mixed reinforcement learning phase with on-policy distillation. According to the paper, the lab first trains more than ten specialized in-house models for math, code, agents, and instruction following using supervised fine-tuning and GRPO. A single student model then learns from all of these in-house teachers. Models optimized for agentic tasks, validated on Huawei hardware Deepseek built V4 specifically for agentic workflows. The company says the models are integrated with tools like Claude Code, OpenClaw, and OpenCode, and are already being used internally for agentic coding. The API supports both OpenAI- and Anthropic-compatible interfaces. The paper is more specific about hardware: the expert parallelism scheme has been validated on "Nvidia GPUs and Huawei Ascend NPUs." The open-source mega-kernel MegaMoE is CUDA-based, and Deepseek replaced Nvidia's cuBLAS library with its own DeepGEMM. Separately, Huawei has announced that its Ascend Supernode, built on Ascend 950 AI chips, fully supports the V4 models. AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Deepseek / Technical Report V4 | Deepseek / API Pricing