구글 제미나이 3.5 플래시, 대폭 인상된 사용료 논란
구글 딥마인드가 공개한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'는 전 대비 5.5배 높은 운영 비용과 3배 오른 토큰 가격으로 개발자들의 비용 부담을 크게 가중시켰습니다. 특히 에이전트(Agent) 작업 시 토큰 소모량이 급증하여, 결과적으로 더 비싼 프리미엄 모델인 Pro 버전보다 총 사용료가 최대 75% 더 높게 청구되는 역설적인 상황이 발생했습니다. 최근 오픈AI와 앤스로픽의 신모델들 또한 토큰 소비량 증가 및 기본 요금 인상을 단행한 바 있어, 업계 전반에 걸쳐 실제 작업 기반의 효율성을 따지는 새로운 비용 측정 기준이 필요해졌습니다.
구글 딥마인드가 공개한 '제미나이 3.5 플래시(Gemini 3.5 Flash)'는 전작보다 한 단계 진보한 모델이지만, 운영 비용은 5배 이상 치솟았습니다. 특히 에이전트 작업에서 토큰 소비량이 워낙 많아 실제 벤치마크 테스트 결과, 더 비싼 프리미엄 모델인 Pro 버전보다 총비용이 더 높게 나오는 현상이 빚어지고 있습니다.
구글 딥마인드가 최신 플래시(Flash) 모델 패밀리인 제미나이 3.5 플래시를 출시했습니다. 기존에 플래시 모델은 구글의 강력한 프로(Pro) 모델에 비해 더 저렴하고 빠른 대안으로 자리 잡아 왔습니다. 그러나 사전 접근 권한을 얻은 분석 업체 Artificial Analysis의 조사에 따르면, 제미나이 3.5 플래시의 벤치마크 운영 비용은 구형인 제미나이 3 플래시보다 5.5배 높으며, 심지어 상위 모델인 제미나이 3.1 프로의 거의 2배에 달합니다. 컨텍스트 윈도우는 100만 토큰으로 동일하게 유지됩니다.
토큰 가격만 놓고 보더라도 3배나 인상되었습니다. 구글은 현재 백만 입력 토큰당 1.50달러, 백만 출력 토큰당 9.00달러를 부과하고 있으며, 이는 제미나이 3 플래시의 각각 0.50달러, 3.00달러에서 크게 오른 수치입니다. 토큰 단가만 놓고 보면 백만 토큰당 2.00달러, 12.00달러를 책정한 제미나이 3.1 프로보다는 여전히 저렴합니다.
하지만 실제 사용 환경에서는 상황이 다릅니다. Artificial Analysis에 따르면, 제미나이 3.5 플래시는 에이전트(Agent) 기반 작업에서 토큰을 너무 많이 소모하여 총 비용이 오히려 제미나이 3.1 프로보다 75% 더 높게 측정되었습니다.
이러한 요금 인상이 얼마나 큰 타격이 될지는 사용 목적에 따라 다르겠지만, 이는 명백히 업계 전반의 추세를 따르는 것입니다. 앤스로픽의 클로드 오퍼스 4.7(Claude Opus 4.7)은 토큰 소비량 증가로 인해 전작 대비 약 3040%의 숨겨진 가격 인상 효과를 냈습니다. 오픈AI의 GPT-5.5는 5.4 모델에 비해 무려 5090%나 비용이 뛰었습니다. 이 경우 토큰 소비량은 줄었지만 기본 가격 자체가 올랐습니다. 반면 구글은 기본 가격과 토큰 소비량을 모두 올린 셈입니다. 개발자와 기업들에게 있어 원시 토큰(Token) 가격은 이제 단일 지표로서의 유용성을 잃어가고 있습니다. 이제 가장 중요한 것은 '효율성', 즉 모델이 실제로 하나의 작업을 완료하는 데 얼마나 많은 토큰을 필요로 하는가입니다.
더 똑똑해졌지만, 여전히 문제인 환각 현상 제미나이 3.5 플래시는 Artificial Analysis 지능 지수(Intelligence Index)에서 55점을 기록했으며, 이는 제미나이 3 플래시보다 9점 높은 수치입니다. 덕분에 Grok 4.3(53점)과 Claude Sonnet 4.6(52점)을 제치고 앞서게 되었습니다. 성능 향상은 테스트된 거의 모든 카테고리에서 나타났습니다. 늘 그렇듯 벤치마크는 특정 시나리오만 포착할 뿐이며, 실제 성능은 일상적이고 새로운 작업을 장기적으로 사용해 봐야만 명확해집니다.
지식의 정확도와 환각(Hallucination) 성향을 측정하는 AA 옴니사이언스(Omniscience) 벤치마크에서 제미나이 3.5 플래시는 11점이나 개선되었습니다. 환각률은 61%로 떨어져 제미나이 3 플래시 당시보다 31%나 하락했습니다. 이 수치는 꽤 인상적으로 들리지만, 상위권 모델들의 점수를 보면 이야기가 달라집니다. 현재 최고 수준인 MiMo-V2.5-Pro와 Grok 4.3은 환각률이 고작 25%에 불과합니다.
에이전트 작업에서 가장 큰 성과와 가장 큰 비용 발생 역사적으로 제미나이 모델 패밀리의 약점 중 하나는 에이전트(Agentic) 작업이었습니다. 하지만 3.5 플래시는 바로 이 부분에서 가장 큰 발전을 보여줍니다. 웹 및 셸(Shell) 접근을 통해 실제 에이전트 작업을 테스트하는 GDPval-AA 벤치마크에서 1,656점의 Elo 점수를 기록했습니다. 이는 제미나이 3 플래시(1,204점)와 제미나이 3.1 프로(1,314점)를 대폭 웃도는 수준이며, GPT-5.4(1,674점)에 근소한 차이로 뒤처질 뿐입니다.
하지만 이러한 성능에는 대가가 따릅니다. 제미나이 3.5 플래시는 작업당 평균 49번의 턴(Turn)을 필요로 하며, 이는 테스트된 다른 어떤 모델보다 높은 수치입니다. 비교 대상인 Claude Opus 4.7은 45번, GPT-5.4는 40번, 그리고 제미나이 3.1 프로는 단 32번의 턴만을 필요로 합니다.