AI 에이전트 비용, 기하급수적 상승 중인가?
AI 에이전트가 수행할 수 있는 작업 시간이 매년 기하급수적으로 늘어나고 있지만, 정작 이를 구동하는 데 드는 '시간당 비용'이 어떻게 변하는지에 대한 논의는 부족합니다. 작업 수행 시간이 늘어나는 속도보다 컴퓨팅 비용 상승 속도가 더 빠르다면, 최첨단 AI 시스템은 인력을 대체하기보다 F1 자동차처럼 '돈으로 때우는 기술력의 과시'에 그칠 위험이 있습니다. 따라서 AI의 실질적인 경제성을 파악하기 위해 모델의 시간당 작업 비용 변화 추이를 분석해야 한다는 지적이 나옵니다.
AI 에이전트의 비용도 기하급수적으로 상승하고 있을까? (2025년 12월 22일, Toby Ord)
AI의 가까운 미래와 관련하여 거의 아무도 묻지 않는 매우 중요한 질문이 하나 있습니다. 우리 모두는 METR(모델 평가 연구기관)의 그래프를 보았을 것입니다. 이 그래프에 따르면 지난 7년 동안 AI 에이전트가 수행할 수 있는 작업의 길이가 기하급수적으로 성장했습니다. GPT-2는 사람에게 몇 초밖에 걸리지 않는 소프트웨어 엔지니어링 작업만 수행할 수 있었지만, 최신 모델은 (50%의 확률로) 인간에게 몇 시간이 걸리는 작업을 수행할 수 있습니다. 이러한 추세가 멈출 기미가 보이지 않기 때문에, 사람들은 자연스럽게 이를 외삽하여 엔지니어의 온전한 하루 업무량, 일주일 치, 혹은 1년 치 작업을 AI가 언제쯤 수행할 수 있을지 예측하고 있습니다.
하지만 우리는 핵심적인 정보를 놓치고 있습니다. 바로 이 작업을 수행하는 데 드는 '비용'입니다. 지난 7년 동안 AI 시스템은 기하급수적으로 성장했습니다. 모델의 크기(매개변수 수)는 4,000배 증가했고, 각 작업에서 모델이 실행되는 횟수(생성된 토큰 수)는 약 100,000배 증가했습니다. AI 연구원들은 엄청난 효율성을 발견해 냈지만, METR이 측정한 최고 성능을 발휘하는 데 드는 비용이 증가하고 있으며, 그것도 기하급수적으로 증가하고 있을 가능성이 매우 높습니다.
이것이 그렇게 나쁜 것만은 아닐 수 있습니다. 예를 들어, 최고의 AI 에이전트가 매년 3배 더 긴 작업을 완료할 수 있고, 그에 드는 비용 역시 매년 3배씩 증가한다면, AI 에이전트가 작업을 수행하는 데 드는 비용은 인간이 그 작업을 수행하는 데 드는 비용 대비 동일한 비율을 유지할 것입니다. 만약 비용의 증가 속도(배가되는 시간)가 작업 시간의 증가 속도보다 더 느리다면, AI 시스템은 인간에 비해 더 저렴해질 것입니다.
하지만 비용이 작업 시간보다 더 빠르게 증가한다면 어떻게 될까요? 그 경우, 이러한 최첨단 AI 시스템은 시간이 지날수록 인간과 비교했을 때 비용 경쟁력이 떨어지게 될 것입니다. 만약 그렇다면, METR의 작업 수행 시간 한계(Time-horizon) 추세는 오해의 소지가 있을 수 있습니다. 이는 최신 기술이 얼마나 발전했는지를 보여주긴 하지만, 이러한 진보의 일부는 컴퓨팅에 대한 과도한 지출에 기반한 것이므로 경제성과는 거리가 멀어지게 됩니다. 이는 마치 F1 자동차 경주와 같아져서, 가능한 것을 보여줄 뿐 실용적인 것은 아니게 됩니다.
따라서 제 생각에 우리가 던져야 할 핵심 질문은 다음과 같습니다. AI 에이전트의 '시간당' 비용은 시간이 지남에 따라 어떻게 변하고 있는가? 여기서 말하는 '시간당' 비용이란, 모델의 50% 작업 수행 시간 한계에 해당하는 작업을 대형 언어 모델(LLM)이 완수하는 데 드는 재정적 비용을 그 작업 시간 한계로 나눈 것을 의미합니다. 따라서 METR의 작업 수행 시간 한계 자체와 마찬가지로, 그 소요 시간은 모델이 걸리는 시간이 아니라 인간이 해당 작업을 완료하는 데 일반적으로 걸리는 시간을 기준으로 측정됩니다. 예를 들어, Claude 4.1 Opus의 50% 작업 수행 시간 한계는 2시간입니다. 이는 인간 소프트웨어 엔지니어에게 2시간이 걸리는 작업의 50%를 성공적으로 수행할 수 있다는 뜻입니다. 따라서 우리는 이 모델이 이러한 작업을 수행하는 데 드는 비용을 확인하고 이를 2로 나누어 이 작업에 대한 시간당 요금을 계산할 수 있습니다.
저는 이 질문을 던지는 사람이 거의 없다는 것을 알게 되었습니다. 그리고 사람들에게 시간이 지남에 따라 이러한 비용이 어떻게 변할 것이라고 생각하는지 물어보면, 그들의 의견은 천차만별이었습니다. 일부는 작업 길이가 기하급수적으로 증가함에도 불구하고 작업의 총 비용은 동일하게 유지될 것이라고 가정합니다. 그것은 시간당 비용이 기하급수적으로 감소한다는 것을 의미할 것입니다. 다른 사람들은 총비용 역시 기하급수적으로 증가할 것이라고 가정합니다. 결국, 최첨단 모델에 접근하기 위한 비용이 극적으로 증가하는 것을 보아왔으니까요. 그리고 대부분의 사람들(저 자신도 포함)은 현재 AI 에이전트가 소프트웨어 엔지니어링 작업을 1시간 하는 데 얼마나 비용이 드는지 전혀 알지 못했습니다. 우리가 말하는 비용이 몇 센트일까요? 몇 달러? 수백 달러일까요? AI 에이전트의 시간당 비용이 이러한 작업을 수행하는 인간의 비용보다 더 비쌀 수는 없죠. 정말 그럴 리가 없겠죠?
⁂ 몇 달 전, 저는 METR에 벤치마킹에 대한 비용 데이터를 공유해 줄 수 있는지 물어봤습니다. 각 모델에 대해 벤치마크를 실행하는 비용을 구한 다음, 출시일에 대해 플롯(Plot)하여 비용이 어떻게 증가하는지 확인하면 쉬울 것이라고 생각했습니다. 아니면 각 모델의 비용과 해당 모델의 작업 수행 시간 한계를 비교하여 플롯을 그리고 그 관계를 확인해도 좋을 것이었습니다. 하지만 그들은 친절하게도 그것이 전혀 쉽지 않다는 점을 지적해 주었습니다.