현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었다
AI 추론 비용이 예상과 달리 하락하지 않고 HBM 가격 상승 등 공급망 문제까지 겹치면서, 기업들의 'AI 무제한 요금제'가 붕괴하고 있습니다. 모델의 기능이 고도화될수록 사용량이 기하급수적으로 늘어 총비용이 증가하는 구조적 한계에 부딪힌 것입니다. 앞으로는 '어디에 AI를 넣을까'가 아니라 '어떤 사용 사례가 AI 연산 비용을 감당할 만큼 가치가 있는가'를 따지는 방향으로 제품 및 가격 정책이 재편될 것입니다.
현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었다
현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었습니다. 애초에 말이 안 되는 구조였거든요. 이번 주에 Microsoft는 내부 Claude Code 라이선스를 취소했고(통합했기 때문이든 어떤 이유에서든), Uber는 2026년 AI 예산 전체를 단 4개월 만에 탕진했으며, GitHub는 자사 제품 전반에 걸쳐 정액제 플랜을 폐지하고 있습니다. 여러분은 곧 "AI 보조금 시대가 끝났다"는 식의 프레이밍을 보게 될 것입니다. 이는 모든 기업이 추론 비용이 계속 떨어질 것이라는 베팅 하에 모든 제품 등급에 AI 기능을 억지로 끼워 넣었던 행태를 돌려 말하는 예의 바른 표현일 뿐입니다. 하지만 비용은 떨어지지 않았고, 비용 곡선은 오히려 잘못된 방향으로 꺾였으며, AI 연구실들(labs)은 이 비용을 고객에게 전가하는 것 외에는 달리 선택지가 없게 되었습니다.
우리가 다 함께 이차적 사고(Second-order thinking)를 잊었던 걸까요? 새로운 모델 세대가 나올 때마다 토큰당 비용은 이론적으로 하락했습니다. 때로는 10분의 1로 줄기도 했지만, 그건 동일한 품질 수준을 기준으로 한 것이었습니다... 많은 사람들이 이 추세를 외삽(과거 추세를 바탕으로 미래를 예측)하여 그 위에 비즈니스 모델을 구축했습니다. 하지만 그건 올바른 사고방식이 아닙니다. 이차적 사고를 해본 적이 없나요?
도로 계획을 다루는 사람이라면 '유발된 수요(Induced demand)'라는 개념을 잘 알 것입니다. 새로운 기능은 항상 새로운 수요를 창출합니다. 고속도로가 바로 교과서적인 사례입니다. 차선 하나를 추가하면 새로운 통근 패턴이 생겨납니다. 차선이 없었을 때는 그 통근도 존재하지 않았습니다. AI도 똑같은 모양새입니다. 더 저렴한 추론 비용은 청구서 금액을 줄여주는 게 아니라, 사람들이 모델에게 요구하는 작업의 범위를 확장시킬 뿐입니다. 예전에는 2분 걸리던 제 추론 쿼리가 이제는 4분 이상 걸립니다. 과거의 워크플로우가 한 번의 API 호출을 했다면, 이제 에이전트 워크플로우(Agentic workflows)는 50번의 호출을 수행합니다. 단위당 비용은 하락하지만 사용 단위가 폭발적으로 증가하기 때문에, 결과적으로 총 지출은 오히려 증가합니다. 정액제 "AI 어시스턴트"를 팔았던 사람들은 사용자의 행동이 변하지 않을 것이라고 가정했습니다. 하지만 행동은 변했습니다. 그리고 항상 변하기 마련입니다.
둘째로, 공급 측면이 더 이상 협조적이지 않다는 점입니다. 메모리와 GPU의 경제성이 우리에게 불리하게 작동하고 있습니다. 메모리 가격은 4배나 뛰었고, GPU는 95% 이상 비싸졌습니다. 최첨단 모델의 학습과 추론은 고대역폭 메모리(HBM)와 결합된 엔비디아 가속기에서 구동됩니다. 더 이상 병목은 트랜지스터가 아니라 HBM과 이를 컴퓨팅 다이에 결합하는 첨단 패키징 기술입니다. 그 한계는 단 하나의 공장 깊이에 불과합니다. TSMC의 CoWoS 패키징 라인이 가속기 공급의 병목입니다. SK하이닉스가 HBM 시장을 지배하고 있으며 삼성전자가 그 뒤를 따르고 마이크론은 그 뒤처져 있습니다. 이들 중 그 어느 누구도 하룻밤 사이에 생산 능력을 늘릴 수 없습니다. 이들은 최소 18~36개월의 투자가 필요한 작업들이며, 기존의 계획들은 수요를 실제보다 10분의 1 수준으로 과소 평가한 세상을 기준으로 세워졌습니다. 따라서 현재의 GPU 가격은 희소성 가격의 표본입니다. 오늘날 최고급 가속기는 유사한 클러스터 규모를 기준으로 이전 세대보다 대략 2배 더 비쌉니다. HBM 가격은 18개월 만에 4배 폭등했습니다. 전력과 냉각 역시 과거에는 전력 모델링을 하지 않던 곳에서 실제 제약 조건이 되었습니다. 그래서 모든 대형 클라우드 기업(hyperscaler)은 "기가와트(GW)급 캠퍼스를 짓고 있다"는 이야기와 원자력 전력 구매 계약(PPA)에 대한 보도자료를 내놓고 있습니다.
Anthropic의 CFO는 지난 3월 법정 증언에서 회사가 컴퓨팅에 100억 달러를 지출하고 50억 달러의 수익을 올렸다고 증언했습니다. AI 연구소들은 추론 사업에서 적자를 면치 못하고 있습니다. 그들은 전기세라도 내기 위해 가격을 올리고 있는 중입니다. 정액제 AI 전방위 제품을 판매했던 기업들은 이제 스스로 설계해 만들어낸 마진 문제의 위기에 직면해 있습니다. 그들의 베팅은 이 비용 곡선 중 하나가 자신들에게 유리하게 꺾일 것이라는 믿음이었습니다. 하지만 아무것도 그들의 편이 되어주지 않았고, 아마 앞으로도 그럴 것이며, 특히 그들의 가격 정책이 전제했던 타임라인 안에서는 절대 불가능할 것입니다.
앞으로 무엇이 달라질까요? 제품의 방향성이 바뀝니다. "어디에 AI를 추가할 수 있을까?"라는 질문이 아니라, "어떤 사용 사례가 자신이 소모하는 추론 비용을 충분히 벌어들일 가치가 있는가?"를 고민하기 시작할 것입니다. 이것은 훨씬 작성하기 까다로운 제품 로드맵(Roadmap)이 됩니다. 또한 가격 책정의 표면을 바꾸는데, 이 부분은 대부분의 제품 팀이 아직 내면화하지 못한 영역입니다. 변동하는 비용을 다루는 세 가지 과금 아키텍처가 있습니다. 어느 것도 새로울 게 없지만, '사용자 1인당(Seat)' 과금제를 팔며 자란 영업팀에게는 모두 불편한 방식입니다.
- 행동 기반 과금 (Per-action): 모든 API 호출, 모든 생성, 모든 에이전트의 단계별 동작마다 가격이 매겨집니다. 매출은 근본적인 이벤트에 연동되어 있기 때문에 비용과 비례하여 증가합니다. Twilio는 2008년부터 이 방식을 운영해 왔고, AWS는 2006년부터 이 모델의 변형을 사용하고 있습니다. 단점은 투명성이 양날의 검이라는 것입니다. (역주: 고객에게 비용 발생 구조가 너무 명확하게 보여, 비용이 크게 나올 경우 서비스 이탈로 이어질 수 있습니다.)