외주 개발자와 로컬 AI가 프론티어 모델보다 저렴해지는 시점
최근 오픈AI, 구글, 앤스로픽 등 미국의 주요 AI 기업들이 폭발적인 토큰 소비 증가에 힘입어 API 가격을 대폭 인상하고 있습니다. 이에 따라 저비용 국가의 인간 엔지니어를 고용하고 DeepSeek과 같은 오픈소스 로컬 AI를 결합하는 방식이 프론티어 폐쇄형 모델을 사용하는 것보다 경제성이 높아질 것이라는 분석이 제기되었습니다. 이러한 구도는 결과적으로 최신 고성능 모델들의 가격 상한선을 설정하는 핵심적인 역할을 하게 될 것입니다.
☰ 메뉴
외주 개발자 + 로컬 AI가 프론티어 연구소 모델보다 곧 더 경제적인 대안이 될 것이다 2026년 5월 26일 • Max Trivedi
TL;DR: 이 글은 프론티어(Frontier) 폐쇄형 대형 언어 모델(LLM)을 사용하는 것보다, 비용이 낮은 국가의 엔지니어를 고용해 DeepSeek/로컬 AI API 키를 제공하는 것이 언제부터 더 경제적인지 분석합니다. 결론적으로 이러한 역학 구도는 최소한 프론티어 연구소 서비스의 가격 상한선을 형성하게 될 것입니다. 우리는 로컬 AI 비용의 대리 지표로 DeepSeek을 사용했습니다.
우리는 추론(inference) 비용이 하락 궤도에 있어야 한다는 말을 계속 듣고 있지만, 적어도 미국의 프론티어 연구소들을 기준으로 명백히 그렇지 않습니다.
GPT-5($5/$30)는 GPT-5.4 출시 후 2개월도 채 되지 않아 API 가격을 전반적으로 두 배 인상했습니다. GPT-5.5는 8개월 전 GPT-5($1.25/$10)의 3배 이상 비용이 듭니다. Gemini 3.5 Flash($1.50/$9.00)는 전작인 Gemini-3-flash-preview($0.50/$3.00) 대비 API 가격을 3배 인상했으며, 이 역시 전작인 2.5 Flash($0.30/$2.50)에서 이미 가격이 인상된 상태였습니다. 앤스로픽(Anthropic)은 새로운 토크나이저를 적용한 Opus-4.7을 출시했는데, 직전 모델인 Opus-4.6에 비해 실질적인 토큰 소비량을 32%에서 47%나 증가시켰습니다.
프론티어 오픈소스(OSS) 모델과 폐쇄형 모델의 비교 이번 비교를 위해 우리는 '혼합 토큰 소비 비율'을 사용했습니다. 이는 1백만 개의 입력(및 캐시된) 토큰당 5만 개의 출력 토큰(5% 미만)이 발생한다고 가정한 것입니다. 대규모 에이전트 루프(agentic loops)는 많은 턴 수로 인해 읽기(입력) 중심으로 작동하기 때문에, 이는 오히려 보수적인 추정치입니다. 우리는 각 제공업체의 캐싱을 고려하여(source: openrouter.ai) 에이전트 토큰 1백만 개당 평균 혼합 가격을 비교했습니다.
제공업체 | 입력 가격 ($/1M) | 출력 가격 ($/1M) | 캐시 적중률
Anthropic | $1.57 | $25.00 | 79.6%
OpenAI | $1.30 | $30.22 | 84.8%
DeepSeek | $0.055 | $0.870 | 88.1%
Anthropic: $1.57 + $1.25 = $2.82
OpenAI: $1.30 + $1.5 = $2.80
DeepSeek: $0.05 + $0.0435 = $0.094
현재의 폐쇄형 프론티어 모델은 DeepSeek의 최신 모델보다 성능이 더 뛰어납니다. 하지만 이 성능 차이가 30배의 가격 차이를 정당화하기에 충분할까요? 우수한 인간 엔지니어와 결합할 경우, 오픈소스 LLM이 반드시 최고 수준의 프론티어 모델일 필요는 없습니다. 이미 코딩 사용 사례에 충분히 부합할 만큼 '충분히 좋은' 수준이기만 하면 됩니다.
토큰 소비 트렌드 정확한 데이터를 찾기는 어렵지만, 토큰 소비를 극대화하는 '토큰맥싱(tokenmaxxing)' 트렌드는 최근 몇 달, 몇 년 동안 가속화되었습니다 (참고: https://blog.pragmaticengineer.com/the-pulse-tokenmaxxing-as-a-weird-new-trend/ ). 내가 아는 모든 훌륭한 엔지니어들은 토큰맥싱에 목표를 두는 것은 어리석은 일이라는 데 동의하지만, 이 문제는 다른 글에서 다루겠습니다. 좋든 나쁘든 토큰 소비는 엄청나게 증가했으며 (지속적인 GPU 부족 현상으로도 이는 명백합니다), 미국의 프론티어 연구소들이 더 많은 가치를 창출하기 위해 노력함에 따라 토큰 소비 증가와 토큰당 가격 상승이 맞물리고 있는 상황입니다.
(인간 + 준수한 수준의 LLM) vs 프론티어 LLM 우리는 이전에 인간 엔지니어와 AI 에이전트를 12가지 축으로 비교하는 매우 긴 글을 작성한 바 있습니다 (참고: https://www.signalbloom.ai/posts/why-task-proficiency-doesnt-equal-ai-autonomy/ ). 그 결론은 코딩 분야에서는 이미 AI 에이전트가 인간을 추월했으며, 곧 범위가 지정된 디버깅 분야에서도 추월할 것이라는 점이었습니다. 하지만 우수한 엔지니어링(또는 모든 분야에서 훌륭한 독립적 에이전트로 활동하기)에 필요한 다른 중요한 기술들에 있어서는 AI가 여전히 뒤처져 있습니다. 장기 기억, 메타 기억(자신이 아는 것과 모르는 것을 확실히 구분하는 능력), 증거 충분성 평가(행동하기에 충분한 증거가 있는지 판단하는 능력) 등이 그 예입니다. 현재 세대의 프론티어 LLM은 작업 처리에 있어서는 예외적으로 뛰어나지만, 작업 효율성이 곧 AI의 자율성을 의미하지는 않습니다.
향후 가능성 이 글의 핵심으로 들어가서, 아래의 차트는 비용이 낮은 국가의 엔지니어 + 충분히 능력 있는 모델을 결합하는 것이 최고 수준의 프론티어 모델을 사용하는 것보다 언제부터 더 가성비가 좋아지는지 예측한 것입니다.