메뉴
HN
Hacker News 45일 전

AI 에이전트 비용, 기하급수적 상승 중인가?

IMP
8/10
핵심 요약

AI 에이전트가 수행할 수 있는 작업 시간이 매년 기하급수적으로 늘어나고 있지만, 정작 이를 구동하는 데 드는 '시간당 비용'이 어떻게 변하는지에 대한 논의는 부족합니다. 작업 수행 시간이 늘어나는 속도보다 컴퓨팅 비용 상승 속도가 더 빠르다면, 최첨단 AI 시스템은 인력을 대체하기보다 F1 자동차처럼 '돈으로 때우는 기술력의 과시'에 그칠 위험이 있습니다. 따라서 AI의 실질적인 경제성을 파악하기 위해 모델의 시간당 작업 비용 변화 추이를 분석해야 한다는 지적이 나옵니다.

번역된 본문

AI 에이전트의 비용도 기하급수적으로 상승하고 있을까? (2025년 12월 22일, Toby Ord)

AI의 가까운 미래와 관련하여 거의 아무도 묻지 않는 매우 중요한 질문이 하나 있습니다. 우리 모두는 METR(모델 평가 연구기관)의 그래프를 보았을 것입니다. 이 그래프에 따르면 지난 7년 동안 AI 에이전트가 수행할 수 있는 작업의 길이가 기하급수적으로 성장했습니다. GPT-2는 사람에게 몇 초밖에 걸리지 않는 소프트웨어 엔지니어링 작업만 수행할 수 있었지만, 최신 모델은 (50%의 확률로) 인간에게 몇 시간이 걸리는 작업을 수행할 수 있습니다. 이러한 추세가 멈출 기미가 보이지 않기 때문에, 사람들은 자연스럽게 이를 외삽하여 엔지니어의 온전한 하루 업무량, 일주일 치, 혹은 1년 치 작업을 AI가 언제쯤 수행할 수 있을지 예측하고 있습니다.

하지만 우리는 핵심적인 정보를 놓치고 있습니다. 바로 이 작업을 수행하는 데 드는 '비용'입니다. 지난 7년 동안 AI 시스템은 기하급수적으로 성장했습니다. 모델의 크기(매개변수 수)는 4,000배 증가했고, 각 작업에서 모델이 실행되는 횟수(생성된 토큰 수)는 약 100,000배 증가했습니다. AI 연구원들은 엄청난 효율성을 발견해 냈지만, METR이 측정한 최고 성능을 발휘하는 데 드는 비용이 증가하고 있으며, 그것도 기하급수적으로 증가하고 있을 가능성이 매우 높습니다.

이것이 그렇게 나쁜 것만은 아닐 수 있습니다. 예를 들어, 최고의 AI 에이전트가 매년 3배 더 긴 작업을 완료할 수 있고, 그에 드는 비용 역시 매년 3배씩 증가한다면, AI 에이전트가 작업을 수행하는 데 드는 비용은 인간이 그 작업을 수행하는 데 드는 비용 대비 동일한 비율을 유지할 것입니다. 만약 비용의 증가 속도(배가되는 시간)가 작업 시간의 증가 속도보다 더 느리다면, AI 시스템은 인간에 비해 더 저렴해질 것입니다.

하지만 비용이 작업 시간보다 더 빠르게 증가한다면 어떻게 될까요? 그 경우, 이러한 최첨단 AI 시스템은 시간이 지날수록 인간과 비교했을 때 비용 경쟁력이 떨어지게 될 것입니다. 만약 그렇다면, METR의 작업 수행 시간 한계(Time-horizon) 추세는 오해의 소지가 있을 수 있습니다. 이는 최신 기술이 얼마나 발전했는지를 보여주긴 하지만, 이러한 진보의 일부는 컴퓨팅에 대한 과도한 지출에 기반한 것이므로 경제성과는 거리가 멀어지게 됩니다. 이는 마치 F1 자동차 경주와 같아져서, 가능한 것을 보여줄 뿐 실용적인 것은 아니게 됩니다.

따라서 제 생각에 우리가 던져야 할 핵심 질문은 다음과 같습니다. AI 에이전트의 '시간당' 비용은 시간이 지남에 따라 어떻게 변하고 있는가? 여기서 말하는 '시간당' 비용이란, 모델의 50% 작업 수행 시간 한계에 해당하는 작업을 대형 언어 모델(LLM)이 완수하는 데 드는 재정적 비용을 그 작업 시간 한계로 나눈 것을 의미합니다. 따라서 METR의 작업 수행 시간 한계 자체와 마찬가지로, 그 소요 시간은 모델이 걸리는 시간이 아니라 인간이 해당 작업을 완료하는 데 일반적으로 걸리는 시간을 기준으로 측정됩니다. 예를 들어, Claude 4.1 Opus의 50% 작업 수행 시간 한계는 2시간입니다. 이는 인간 소프트웨어 엔지니어에게 2시간이 걸리는 작업의 50%를 성공적으로 수행할 수 있다는 뜻입니다. 따라서 우리는 이 모델이 이러한 작업을 수행하는 데 드는 비용을 확인하고 이를 2로 나누어 이 작업에 대한 시간당 요금을 계산할 수 있습니다.

저는 이 질문을 던지는 사람이 거의 없다는 것을 알게 되었습니다. 그리고 사람들에게 시간이 지남에 따라 이러한 비용이 어떻게 변할 것이라고 생각하는지 물어보면, 그들의 의견은 천차만별이었습니다. 일부는 작업 길이가 기하급수적으로 증가함에도 불구하고 작업의 총 비용은 동일하게 유지될 것이라고 가정합니다. 그것은 시간당 비용이 기하급수적으로 감소한다는 것을 의미할 것입니다. 다른 사람들은 총비용 역시 기하급수적으로 증가할 것이라고 가정합니다. 결국, 최첨단 모델에 접근하기 위한 비용이 극적으로 증가하는 것을 보아왔으니까요. 그리고 대부분의 사람들(저 자신도 포함)은 현재 AI 에이전트가 소프트웨어 엔지니어링 작업을 1시간 하는 데 얼마나 비용이 드는지 전혀 알지 못했습니다. 우리가 말하는 비용이 몇 센트일까요? 몇 달러? 수백 달러일까요? AI 에이전트의 시간당 비용이 이러한 작업을 수행하는 인간의 비용보다 더 비쌀 수는 없죠. 정말 그럴 리가 없겠죠?

⁂ 몇 달 전, 저는 METR에 벤치마킹에 대한 비용 데이터를 공유해 줄 수 있는지 물어봤습니다. 각 모델에 대해 벤치마크를 실행하는 비용을 구한 다음, 출시일에 대해 플롯(Plot)하여 비용이 어떻게 증가하는지 확인하면 쉬울 것이라고 생각했습니다. 아니면 각 모델의 비용과 해당 모델의 작업 수행 시간 한계를 비교하여 플롯을 그리고 그 관계를 확인해도 좋을 것이었습니다. 하지만 그들은 친절하게도 그것이 전혀 쉽지 않다는 점을 지적해 주었습니다.

원문 보기
원문 보기 (영어)
Are the Costs of AI Agents Also Rising Exponentially? December 22, 2025 Toby Ord There is an extremely important question about the near-future of AI that almost no-one is asking. We’ve all seen the graphs from METR showing that the length of tasks AI agents can perform has been growing exponentially over the last 7 years. While GPT-2 could only do software engineering tasks that would take someone a few seconds, the latest models can (50% of the time) do tasks that would take a human a few hours. As this trend shows no signs of stopping, people have naturally taken to extrapolating it out, to forecast when we might expect AI to be able to do tasks that take an engineer a full work-day; or week; or year. But we are missing a key piece of information — the cost of performing this work. Over those 7 years AI systems have grown exponentially. The size of the models (parameter count) has grown by 4,000x and the number of times they are run in each task (tokens generated) has grown by about 100,000x. AI researchers have also found massive efficiencies, but it is eminently plausible that the cost for the peak performance measured by METR has been growing — and growing exponentially. This might not be so bad. For example, if the best AI agents are able to complete tasks that are 3x longer each year and the costs to do so are also increasing by 3x each year, then the cost to have an AI agent perform tasks would remain the same multiple of what it costs a human to do those tasks. Or if the costs have a longer doubling time than the time-horizons, then the AI-systems would be getting cheaper compared with humans. But what if the costs are growing more quickly than the time horizons? In that case, these cutting-edge AI systems would be getting less cost-competitive with humans over time. If so, the METR time-horizon trend could be misleading. It would be showing how the state of the art is improving, but part of this progress would be due to more and more lavish expenditure on compute so it would be diverging from what is economical. It would be becoming more like the Formula 1 of AI performance — showing what is possible, but not what is practical. So in my view, a key question we need to ask is: How is the ‘hourly’ cost of AI agents changing over time? By ‘hourly’ cost I mean the financial cost of using an LLM to complete a task right at the model’s 50% time horizon divided by the length of that time horizon. So as with the METR time horizons themselves, the durations are measured not by how long it takes the model, but how long it typically takes humans to do that task. For example, Claude 4.1 Opus’s 50% time horizon is 2 hours: it can succeed in 50% of tasks that take human software engineers 2 hours. So we can look at how much it costs for it to perform such a task and divide by 2, to find its hourly rate for this work. I’ve found that very few people are asking this question. And when I ask people what they think is happening to these costs over time, their opinions vary wildly. Some assume the total cost of a task is staying the same, even as the task length increases exponentially. That would imply an exponentially declining hourly rate. Others assume the total cost is also growing exponentially — after all, we’ve seen dramatic increases in the costs to access cutting-edge models. And most people (myself included) had little idea of how much it currently costs for AI agents to do an hour’s software engineering work. Are we talking cents? Dollars? Hundreds of dollars? An AI agent can’t cost more per hour than a human to complete these tasks can it? Can it? ⁂ A couple of months ago I asked METR if they could share the cost data for their benchmarking. I figured it would be easy — just take the cost of running their benchmark for each model, plot it against release date and see how it is growing. Or plot the cost of each model vs its time horizon and see the relationship. But they helpfully pointed out that it isn’t so easy at all. Their headline time-horizon numbers are meant to show the best possible performance that can be attained with a model (regardless of cost). So they run their models inside an agent scaffold until the performance has plateaued. Since they really want to make sure it has plateaued, they use a lot of compute on this and don’t worry too much about whether they’ve used too much. After all, if you are just trying to find the eventual height of a plateau, there is no problem in going far into the flat part of the graph. But if you are trying to find out when the plateau begins , there is a problem with this strategy. Their total spend for each model is sometimes just enough to get onto the plateau and sometimes many times more than is needed. So total spend can’t be used as direct estimate of the costs of achieving that performance. Fortunately, they released a chart that can be used to shed some light on the key question of how hourly costs of LLM agents are changing over time: This chart (from METR’s page for GPT-5 ) shows how performance increases with cost. The cost in question is the cost of using more and more tokens to complete the task (and thus more and more compute). The yellow curve is the best human performance for each task. It steadily marches onwards and upwards, transforming more wages into longer tasks. Since it is human performance that is used to define the vertical axis for METR’s time horizon work, it isn’t surprising that this curve is fairly linear — it costs about 8 times as much to get a human software engineer to perform an 8-hour task as a 1-hour task. The other colours are the curves for a selection of LLM-based agents. Unlike the humans, they all show diminishing returns, with the time horizon each one can achieve eventually stalling out and plateauing as more and more compute is added. The short upticks at the end of some of these curves are an artefact of some models not being prepared to give an answer until the last available moment. This suggests that the model must have been still making progress during the apparent flatline before the uptick (just not showing it). Indeed, this chart was originally displayed on METR’s page for GPT-5 to show that they may have stopped its run before it’s performance had truly plateaued. These upticks do make analysis harder and hopefully future versions of this chart will be able to avoid these glitches. ⁂ So what can this chart tell us about our key question concerning the hourly cost of AI agents? To tease out the lessons that lie hidden in the chart, we’ll need to add a number of annotations. The first step is to add lines of constant hourly cost. On a log-log plot like this, every constant hourly cost will be a straight line with slope 1. Lower hourly costs will appear as lines that are located further to the left. For each curve I’ve added a line of constant hourly cost that just grazes it. That is the cheapest hourly cost the model achieves. We can call the point where the line touches the curve the sweet spot for that model. Before a model’s sweet spot, its time horizon is growing super-linearly in cost — it is getting increasing marginal returns. The sweet spot is exactly the point at which diminishing marginal returns set in (which would correspond to the point of inflection if this was replotted on linear axes). It is thus a key point on any model’s performance curve. We can see that the human software engineer is at best \$120 per hour, while the sweet spots for the AI agents range from \$40 per hour for o3, all the way down to 40 cents per hour for Grok 4 and Sonnet 3.5. That’s quite a range of costs. While differences in horizon length between these models vary by about a factor of 15 (judged at either the end-points or at the sweet-spots) their sweet-spot costs vary by a factor of 100. And these are the best hourly rates for these models. On many task lengths (including those near their plateau) they cost 10 to 100 times as much per hour. For instance,