메뉴
BL
The Decoder 11일 전

구글 제미나이 3.5 플래시, 대폭 인상된 사용료 논란

IMP
8/10
핵심 요약

구글 딥마인드가 공개한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'는 전 대비 5.5배 높은 운영 비용과 3배 오른 토큰 가격으로 개발자들의 비용 부담을 크게 가중시켰습니다. 특히 에이전트(Agent) 작업 시 토큰 소모량이 급증하여, 결과적으로 더 비싼 프리미엄 모델인 Pro 버전보다 총 사용료가 최대 75% 더 높게 청구되는 역설적인 상황이 발생했습니다. 최근 오픈AI와 앤스로픽의 신모델들 또한 토큰 소비량 증가 및 기본 요금 인상을 단행한 바 있어, 업계 전반에 걸쳐 실제 작업 기반의 효율성을 따지는 새로운 비용 측정 기준이 필요해졌습니다.

번역된 본문

구글 딥마인드가 공개한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'는 전작보다 한 단계 진보한 모델이지만, 운영 비용은 5배 이상 치솟았습니다. 특히 에이전트 작업에서 토큰 소비량이 워낙 많아 실제 벤치마크 테스트 결과, 더 비싼 프리미엄 모델인 Pro 버전보다 총비용이 더 높게 나오는 현상이 빚어지고 있습니다.

구글 딥마인드가 최신 플래시(Flash) 모델 패밀리인 제미나이 3.5 플래시를 출시했습니다. 기존에 플래시 모델은 구글의 강력한 프로(Pro) 모델에 비해 더 저렴하고 빠른 대안으로 자리 잡아 왔습니다. 그러나 사전 접근 권한을 얻은 분석 업체 Artificial Analysis의 조사에 따르면, 제미나이 3.5 플래시의 벤치마크 운영 비용은 구형인 제미나이 3 플래시보다 5.5배 높으며, 심지어 상위 모델인 제미나이 3.1 프로의 거의 2배에 달합니다. 컨텍스트 윈도우는 100만 토큰으로 동일하게 유지됩니다.

토큰 가격만 놓고 보더라도 3배나 인상되었습니다. 구글은 현재 백만 입력 토큰당 1.50달러, 백만 출력 토큰당 9.00달러를 부과하고 있으며, 이는 제미나이 3 플래시의 각각 0.50달러, 3.00달러에서 크게 오른 수치입니다. 토큰 단가만 놓고 보면 백만 토큰당 2.00달러, 12.00달러를 책정한 제미나이 3.1 프로보다는 여전히 저렴합니다.

하지만 실제 사용 환경에서는 상황이 다릅니다. Artificial Analysis에 따르면, 제미나이 3.5 플래시는 에이전트(Agent) 기반 작업에서 토큰을 너무 많이 소모하여 총 비용이 오히려 제미나이 3.1 프로보다 75% 더 높게 측정되었습니다.

이러한 요금 인상이 얼마나 큰 타격이 될지는 사용 목적에 따라 다르겠지만, 이는 명백히 업계 전반의 추세를 따르는 것입니다. 앤스로픽의 클로드 오퍼스 4.7(Claude Opus 4.7)은 토큰 소비량 증가로 인해 전작 대비 약 3040%의 숨겨진 가격 인상 효과를 냈습니다. 오픈AI의 GPT-5.5는 5.4 모델에 비해 무려 5090%나 비용이 뛰었습니다. 이 경우 토큰 소비량은 줄었지만 기본 가격 자체가 올랐습니다. 반면 구글은 기본 가격과 토큰 소비량을 모두 올린 셈입니다. 개발자와 기업들에게 있어 원시 토큰(Token) 가격은 이제 단일 지표로서의 유용성을 잃어가고 있습니다. 이제 가장 중요한 것은 '효율성', 즉 모델이 실제로 하나의 작업을 완료하는 데 얼마나 많은 토큰을 필요로 하는가입니다.

더 똑똑해졌지만, 여전히 문제인 환각 현상 제미나이 3.5 플래시는 Artificial Analysis 지능 지수(Intelligence Index)에서 55점을 기록했으며, 이는 제미나이 3 플래시보다 9점 높은 수치입니다. 덕분에 Grok 4.3(53점)과 Claude Sonnet 4.6(52점)을 제치고 앞서게 되었습니다. 성능 향상은 테스트된 거의 모든 카테고리에서 나타났습니다. 늘 그렇듯 벤치마크는 특정 시나리오만 포착할 뿐이며, 실제 성능은 일상적이고 새로운 작업을 장기적으로 사용해 봐야만 명확해집니다.

지식의 정확도와 환각(Hallucination) 성향을 측정하는 AA 옴니사이언스(Omniscience) 벤치마크에서 제미나이 3.5 플래시는 11점이나 개선되었습니다. 환각률은 61%로 떨어져 제미나이 3 플래시 당시보다 31%나 하락했습니다. 이 수치는 꽤 인상적으로 들리지만, 상위권 모델들의 점수를 보면 이야기가 달라집니다. 현재 최고 수준인 MiMo-V2.5-Pro와 Grok 4.3은 환각률이 고작 25%에 불과합니다.

에이전트 작업에서 가장 큰 성과와 가장 큰 비용 발생 역사적으로 제미나이 모델 패밀리의 약점 중 하나는 에이전트(Agentic) 작업이었습니다. 하지만 3.5 플래시는 바로 이 부분에서 가장 큰 발전을 보여줍니다. 웹 및 셸(Shell) 접근을 통해 실제 에이전트 작업을 테스트하는 GDPval-AA 벤치마크에서 1,656점의 Elo 점수를 기록했습니다. 이는 제미나이 3 플래시(1,204점)와 제미나이 3.1 프로(1,314점)를 대폭 웃도는 수준이며, GPT-5.4(1,674점)에 근소한 차이로 뒤처질 뿐입니다.

하지만 이러한 성능에는 대가가 따릅니다. 제미나이 3.5 플래시는 작업당 평균 49번의 턴(Turn)을 필요로 하며, 이는 테스트된 다른 어떤 모델보다 높은 수치입니다. 비교 대상인 Claude Opus 4.7은 45번, GPT-5.4는 40번, 그리고 제미나이 3.1 프로는 단 32번의 턴만을 필요로 합니다.

원문 보기
원문 보기 (영어)
Google's Gemini 3.5 Flash follows Anthropic and OpenAI in making newer AI models significantly pricier Matthias Bastian View the LinkedIn Profile of Matthias Bastian May 20, 2026 Nano Banana Pro prompted by THE DECODER Key Points Google Deepmind has released Gemini 3.5 Flash, a new AI model that delivers more than 280 output tokens per second, making it the fastest model in its intelligence class, though it comes at 5.5 times the operating cost of its predecessor. Token prices have tripled, and because agent tasks consume significantly more tokens, total benchmark costs actually exceed those of the more expensive Pro model, raising questions about cost efficiency. While Gemini 3.5 Flash shows its strongest improvements in agentic and multimodal tasks, it has a notable weakness in programming, where it falls clearly behind competitors like GPT-5.5 and Claude Opus 4.7. Ask about this article… Search Google's new Gemini 3.5 Flash is a step up from its predecessor, but it costs more than five times as much to run. High token consumption on agent tasks pushes total costs past the pricier Pro model in benchmark testing. Google Deepmind has released Gemini 3.5 Flash, the latest version of its Flash model family. Flash was long positioned as the cheaper, faster alternative to Google's more powerful Pro models. An analysis by Artificial Analysis , which got early access, found that Gemini 3.5 Flash costs 5.5 times more to run in benchmark testing than Gemini 3 Flash and nearly twice as much as the Pro model Gemini 3.1. The context window stays at one million tokens. Token prices alone have tripled: Google now charges $1.50 per million input tokens and $9.00 per million output tokens, up from $0.50 and $3.00 for Gemini 3 Flash. Per token, that's still cheaper than Gemini 3.1 Pro at $2.00 and $12.00. Ad In practice, though, the math flips. Gemini 3.5 Flash burns through so many more tokens on agent-based tasks that total costs end up 75 percent higher than Gemini 3.1 Pro, according to Artificial Analysis. Ad DEC_D_Incontent-1 How much the price hike stings will depend on the application. But Google is following a broader industry trend. Anthropic's Opus 4.7 had a hidden price increase of roughly 30 to 40 percent over its predecessor due to higher token consumption. OpenAI's GPT 5.5 jumped even more , about 50 to 90 percent over 5.4. There, token consumption went down, but base prices went up. Google raised both. For developers and companies, raw token price is becoming less useful as a standalone metric. What matters now is efficiency, how many tokens a model actually needs to finish a job. Ad Smarter, but hallucinations remain a problem Gemini 3.5 Flash scores 55 on the Artificial Analysis Intelligence Index , nine points above Gemini 3 Flash. That puts it ahead of Grok 4.3 (high, 53) and Claude Sonnet 4.6 (max, 52). Gains show up across nearly every category tested. As always, benchmarks only capture specific scenarios; real-world performance only becomes clear over extended use with everyday and novel tasks. On AA Omniscience, which measures knowledge accuracy and hallucination tendency, Gemini 3.5 Flash improves by 11 points. Its hallucination rate drops to 61 percent, down 31 percentage points from Gemini 3 Flash. That jump sounds impressive until you look at the leaders: MiMo-V2.5-Pro and Grok 4.3 (high) both sit at just 25 percent. Ad DEC_D_Incontent-2 Agent tasks show the biggest gains and drive the biggest costs Agentic tasks have historically been a weak spot for Gemini. That's where 3.5 Flash improves the most. On GDPval-AA, which tests real agent tasks with web and shell access, it hit an Elo score of 1,656, a massive leap over Gemini 3 Flash (1,204) and Gemini 3.1 Pro (1,314), just barely behind GPT-5.4 (xhigh, 1,674). Ad That performance comes at a cost. Gemini 3.5 Flash needs an average of 49 turns per task , more than any other model tested. Claude Opus 4.7 (max) takes 45, GPT-5.4 (xhigh) takes 40, and Gemini 3.1 Pro only needs 23. All those extra interaction steps drive input token consumption way up. Output token usage barely changed: 73 million versus 72 million for Gemini 3 Flash. Input tokens are the culprit, pushing Gemini 3.5 Flash past Gemini 3.1 Pro in total cost despite lower per-token prices. Coding remains a weak spot Programming is where fast, capable, cheap models are in highest demand, and it's where Gemini 3.5 Flash falls short. On the Artificial Analysis Coding Index, which combines Terminal-Bench Hard and SciCode, it scores just 45. That's well behind Gemini 3.1 Pro Preview (55) and far behind GPT-5.5 (xhigh, 59) and GPT-5.4 (xhigh, 57). Claude Opus 4.7 (max, 53) and Claude Sonnet 4.5 (max, 51) also beat it. For a model that matches these rivals on the overall intelligence index, that's a striking gap. Its strengths clearly lie in agentic and multimodal tasks, but coding is one of the most important use cases for agentic AI, which limits the practical value of those agent gains. The fastest model at its intelligence level Gemini 3.5 Flash clocks over 280 output tokens per second, roughly 70 percent faster than Gemini 3 Flash, according to Artificial Analysis. No other model with similar intelligence comes close to that output rate. Unlike many rivals, it also supports video and audio input alongside text and images. Claude Opus 4.7, Grok 4.3, and GPT-5.5 are limited to image input, per Artificial Analysis. On the multimodal benchmark MMMU-Pro, Gemini 3.5 Flash scores 84 percent, the highest result ever recorded. Google takes the top two spots, with Gemini 3.1 Pro second at 82 percent. The rising prices reflect a deeper shift: today's AI models are built for complex, multi-step tasks where they plan on their own, use tools, and work through many rounds of interaction. That agentic behavior needs more compute per task than simple chatbots. Rising costs and murky ROI will force companies to rethink AI spending Unless inference costs for the underlying hardware drop as fast as compute per task goes up, prices for stronger models will keep climbing. For simpler use cases, cheaper older models or smaller options like Gemini 3.1 Flash-Lite will still be around. For companies, AI return on investment is getting harder to pin down. Isolated tasks like code generation or translation are easier to measure—faster turnaround, lower staffing costs—but even there, the picture is muddier than it looks. Knowledge work is where it gets really fuzzy. How do you put a number on a better decision memo or a strategy paper finished in half the time with AI? And what about downstream costs: time spent checking for errors or the learning that doesn't happen when AI does the work ? Those productivity gains tend to be spread thin across departments, show up late, and are hard to separate from other factors. Paying for pricier models is a bet that the efficiency gains will be worth it and that AI-assisted work is just how things will be done. A deep dive into this topic is available in our AI Radar #2 . AI News Without the Hype – Curated by Humans Subscribe to THE DECODER for ad-free reading, a weekly AI newsletter, our exclusive "AI Radar" frontier report six times a year, full archive access, and access to our comment section. Subscribe now Source: Artificial Analysis