메뉴
HN
Hacker News 9일 전

현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었다

IMP
9/10
핵심 요약

AI 추론 비용이 예상과 달리 하락하지 않고 HBM 가격 상승 등 공급망 문제까지 겹치면서, 기업들의 'AI 무제한 요금제'가 붕괴하고 있습니다. 모델의 기능이 고도화될수록 사용량이 기하급수적으로 늘어 총비용이 증가하는 구조적 한계에 부딪힌 것입니다. 앞으로는 '어디에 AI를 넣을까'가 아니라 '어떤 사용 사례가 AI 연산 비용을 감당할 만큼 가치가 있는가'를 따지는 방향으로 제품 및 가격 정책이 재편될 것입니다.

번역된 본문

현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었다

현재의 AI 가격 정책은 언젠가 폐지될 수밖에 없었습니다. 애초에 말이 안 되는 구조였거든요. 이번 주에 Microsoft는 내부 Claude Code 라이선스를 취소했고(통합했기 때문이든 어떤 이유에서든), Uber는 2026년 AI 예산 전체를 단 4개월 만에 탕진했으며, GitHub는 자사 제품 전반에 걸쳐 정액제 플랜을 폐지하고 있습니다. 여러분은 곧 "AI 보조금 시대가 끝났다"는 식의 프레이밍을 보게 될 것입니다. 이는 모든 기업이 추론 비용이 계속 떨어질 것이라는 베팅 하에 모든 제품 등급에 AI 기능을 억지로 끼워 넣었던 행태를 돌려 말하는 예의 바른 표현일 뿐입니다. 하지만 비용은 떨어지지 않았고, 비용 곡선은 오히려 잘못된 방향으로 꺾였으며, AI 연구실들(labs)은 이 비용을 고객에게 전가하는 것 외에는 달리 선택지가 없게 되었습니다.

우리가 다 함께 이차적 사고(Second-order thinking)를 잊었던 걸까요? 새로운 모델 세대가 나올 때마다 토큰당 비용은 이론적으로 하락했습니다. 때로는 10분의 1로 줄기도 했지만, 그건 동일한 품질 수준을 기준으로 한 것이었습니다... 많은 사람들이 이 추세를 외삽(과거 추세를 바탕으로 미래를 예측)하여 그 위에 비즈니스 모델을 구축했습니다. 하지만 그건 올바른 사고방식이 아닙니다. 이차적 사고를 해본 적이 없나요?

도로 계획을 다루는 사람이라면 '유발된 수요(Induced demand)'라는 개념을 잘 알 것입니다. 새로운 기능은 항상 새로운 수요를 창출합니다. 고속도로가 바로 교과서적인 사례입니다. 차선 하나를 추가하면 새로운 통근 패턴이 생겨납니다. 차선이 없었을 때는 그 통근도 존재하지 않았습니다. AI도 똑같은 모양새입니다. 더 저렴한 추론 비용은 청구서 금액을 줄여주는 게 아니라, 사람들이 모델에게 요구하는 작업의 범위를 확장시킬 뿐입니다. 예전에는 2분 걸리던 제 추론 쿼리가 이제는 4분 이상 걸립니다. 과거의 워크플로우가 한 번의 API 호출을 했다면, 이제 에이전트 워크플로우(Agentic workflows)는 50번의 호출을 수행합니다. 단위당 비용은 하락하지만 사용 단위가 폭발적으로 증가하기 때문에, 결과적으로 총 지출은 오히려 증가합니다. 정액제 "AI 어시스턴트"를 팔았던 사람들은 사용자의 행동이 변하지 않을 것이라고 가정했습니다. 하지만 행동은 변했습니다. 그리고 항상 변하기 마련입니다.

둘째로, 공급 측면이 더 이상 협조적이지 않다는 점입니다. 메모리와 GPU의 경제성이 우리에게 불리하게 작동하고 있습니다. 메모리 가격은 4배나 뛰었고, GPU는 95% 이상 비싸졌습니다. 최첨단 모델의 학습과 추론은 고대역폭 메모리(HBM)와 결합된 엔비디아 가속기에서 구동됩니다. 더 이상 병목은 트랜지스터가 아니라 HBM과 이를 컴퓨팅 다이에 결합하는 첨단 패키징 기술입니다. 그 한계는 단 하나의 공장 깊이에 불과합니다. TSMC의 CoWoS 패키징 라인이 가속기 공급의 병목입니다. SK하이닉스가 HBM 시장을 지배하고 있으며 삼성전자가 그 뒤를 따르고 마이크론은 그 뒤처져 있습니다. 이들 중 그 어느 누구도 하룻밤 사이에 생산 능력을 늘릴 수 없습니다. 이들은 최소 18~36개월의 투자가 필요한 작업들이며, 기존의 계획들은 수요를 실제보다 10분의 1 수준으로 과소 평가한 세상을 기준으로 세워졌습니다. 따라서 현재의 GPU 가격은 희소성 가격의 표본입니다. 오늘날 최고급 가속기는 유사한 클러스터 규모를 기준으로 이전 세대보다 대략 2배 더 비쌉니다. HBM 가격은 18개월 만에 4배 폭등했습니다. 전력과 냉각 역시 과거에는 전력 모델링을 하지 않던 곳에서 실제 제약 조건이 되었습니다. 그래서 모든 대형 클라우드 기업(hyperscaler)은 "기가와트(GW)급 캠퍼스를 짓고 있다"는 이야기와 원자력 전력 구매 계약(PPA)에 대한 보도자료를 내놓고 있습니다.

Anthropic의 CFO는 지난 3월 법정 증언에서 회사가 컴퓨팅에 100억 달러를 지출하고 50억 달러의 수익을 올렸다고 증언했습니다. AI 연구소들은 추론 사업에서 적자를 면치 못하고 있습니다. 그들은 전기세라도 내기 위해 가격을 올리고 있는 중입니다. 정액제 AI 전방위 제품을 판매했던 기업들은 이제 스스로 설계해 만들어낸 마진 문제의 위기에 직면해 있습니다. 그들의 베팅은 이 비용 곡선 중 하나가 자신들에게 유리하게 꺾일 것이라는 믿음이었습니다. 하지만 아무것도 그들의 편이 되어주지 않았고, 아마 앞으로도 그럴 것이며, 특히 그들의 가격 정책이 전제했던 타임라인 안에서는 절대 불가능할 것입니다.

앞으로 무엇이 달라질까요? 제품의 방향성이 바뀝니다. "어디에 AI를 추가할 수 있을까?"라는 질문이 아니라, "어떤 사용 사례가 자신이 소모하는 추론 비용을 충분히 벌어들일 가치가 있는가?"를 고민하기 시작할 것입니다. 이것은 훨씬 작성하기 까다로운 제품 로드맵(Roadmap)이 됩니다. 또한 가격 책정의 표면을 바꾸는데, 이 부분은 대부분의 제품 팀이 아직 내면화하지 못한 영역입니다. 변동하는 비용을 다루는 세 가지 과금 아키텍처가 있습니다. 어느 것도 새로울 게 없지만, '사용자 1인당(Seat)' 과금제를 팔며 자란 영업팀에게는 모두 불편한 방식입니다.

  1. 행동 기반 과금 (Per-action): 모든 API 호출, 모든 생성, 모든 에이전트의 단계별 동작마다 가격이 매겨집니다. 매출은 근본적인 이벤트에 연동되어 있기 때문에 비용과 비례하여 증가합니다. Twilio는 2008년부터 이 방식을 운영해 왔고, AWS는 2006년부터 이 모델의 변형을 사용하고 있습니다. 단점은 투명성이 양날의 검이라는 것입니다. (역주: 고객에게 비용 발생 구조가 너무 명확하게 보여, 비용이 크게 나올 경우 서비스 이탈로 이어질 수 있습니다.)
원문 보기
원문 보기 (영어)
The current AI pricing was always going to go away The current AI pricing was always going to go away. It just doesn't make sense. Microsoft canceled internal Claude Code licenses this week (for whatever reason, even if it's because they integrated it), Uber blew its entire 2026 AI budget in four months, and GitHub is dropping flat-rate plans across its products. You'll see the framing "the AI subsidy era is ending" which is a polite way of what everyone's been doing when they slap AI features into every tier of their product on a bet that inference costs would keep falling. They didn't and the cost curve is bending the wrong way, and the labs have no choice except to pass that along. Did we collectively forget second order thinking? Each model generation, costs per token did fall in theory, sometimes 10x less but that was for comparable quality… Lots of people extrapolated and built business models on the extrapolation, which… isn't how you think about it. Second-order thinking anyone? Everyone who deals with road planning knows about is induced demand. Each new capability invents new demand. Highways are the textbook case. Add a lane, you get new commutes. The commutes weren't there before the lane. AI is the same shape. Cheaper inference doesn't reduce the bill, it expands what people ask the model to do. Now my reasoning queries take >4 minutes, where the old ones took 2m… Agentic workflows make 50 calls where the old workflow made one. Unit cost falls, units explode, but still the total spend goes up. Anyone selling a flat-rate "AI assistant" assumed user behavior wouldn't change. It did. It always does. The second is that the supply side stopped cooperating - memory and GPU economics are moving against you. Memory got 4x more expensive. GPUs got >95% more expensive. Frontier training and inference run on Nvidia accelerators paired with high-bandwidth memory. The ceiling isn't transistors anymore, it's HBM and the advanced packaging that bonds it to the compute die. That ceiling is one factory deep. TSMC's CoWoS packaging line is the bottleneck for accelerator supply. SK Hynix dominates HBM, with Samsung lagging and Micron behind that. None of them can add capacity overnight. These are 18-to-36 month commitments, minimum, and they were planned for a world that under-forecast demand by an order of magnitude. So GPU pricing is what scarcity pricing looks like. Top-end accelerators today are roughly 2x more expensive than the previous generation at comparable cluster scale. HBM prices have 4x'd in 18 months. Power and cooling are now real constraints in places nobody used to model power for, which is why every hyperscaler now has a "we're building a gigawatt campus" story and a nuclear-PPA press release. Anthropic's CFO testified under oath this March that the company spent $10 billion on compute and made $5 billion in revenue (Ed Zitron has the math) . The labs are underwater on inference. They're raising prices to keep the lights on. Companies that sold flat-rate AI-everywhere products are now sitting on a margin problem they architected themselves into. The bet was that one of these curves would bend in their favor. None of them did, probably none of them will, certainly not on the timeline their pricing assumed. What changes from here The product question shifts. It stops being "where can we add AI?" and starts being "which use cases earn the inference cost they burn?" That's a harder roadmap to write. It also changes the pricing surface , which is the part most product teams haven't internalized. Three architectures handle a moving cost. None of them are new. All of them are uncomfortable for sales teams that grew up selling seats. Per-action. Every API call, every generation, every agent step has a price. Revenue scales with cost because they're indexed to the same underlying event. Twilio has run this since 2008. AWS has run a version of it since 2006. The downside is transparency cuts both ways. Customers see the meter, and they negotiate. The upside is your gross margin doesn't depend on guessing how hard your power users will hammer the system. Credits. Prepaid buckets. Customer buys 100,000 credits, burns them down on whatever, refills. Credits smooth cash flow and let you mix model costs behind a single unit, which is the only sane way to handle a product that routes between five different inference providers. The trap is breakage. Snowflake credits are infrastructure, customers understand what they're buying. Gift-card credits are stranded assets, and customers can tell which one they bought. You only get to do the second one once. Hybrid. Base seat with included credits and metered overage. Most enterprise sales motions accept this without flinching, because the seat number still anchors the contract and the meter is the safety valve. It's the design most AI-native products converge to within their first repricing cycle. Not my favourite, but whatever, it tends to work. The shape isn't the point by itself, but rather whether the line moves when the cost line moves. Per-seat is the one architecture that pretends costs are fixed. Everything else is some flavor of indexing revenue to the underlying event. The impossible choice If your pricing can move with cost, you get to keep building. You can ship the agentic workflow, the heavier reasoning model, the slow expensive feature for power users, and you have a way to be paid for them. If you're locked into per-seat (or flat, or whatever) - you pick between two losing options. Eat the margin and watch it compress every quarter your customers' usage grows. Or strip AI out of your cheaper tiers and watch your activation rate fall off the lower-priced cohorts that used to be your funnel. Both options are visible on the next board deck. Neither one of them looks fun. Posted 22/05/2026 in ai , pricing by Arnon Shimoni Tags: Comments Leave a Reply Cancel reply This site uses Akismet to reduce spam. Learn how your comment data is processed.