메뉴
BL
Google AI Blog 58일 전

Gemini API 비용 및 안정성 조정의 새로운 방법

IMP
8/10
핵심 요약

구글은 Gemini API에 'Flex'와 'Priority'라는 두 가지 새로운 서비스 등급을 도입했습니다. 개발자는 단일 동기화 인터페이스를 통해 비동기 배치 처리의 복잡함 없이, 대기 시간에 영향을 줘도 되는 백그라운드 작업은 50% 저렴한 Flex로 라우팅하고 즉각적인 응답이 필수적인 대화형 작업은 안정성이 가장 높은 Priority로 라우팅할 수 있습니다. 이를 통해 개발자는 앱의 요구사항에 맞춰 비용과 성능을 정밀하게 최적화할 수 있습니다.

번역된 본문

오늘 우리는 Gemini API에 Flex와 Priority라는 두 가지 새로운 서비스 등급(tier)을 추가합니다. 이 새로운 옵션은 단일하고 통합된 인터페이스를 통해 비용과 안정성에 대한 세밀한 제어를 제공합니다.

AI가 단순한 채팅에서 복잡하고 자율적인 에이전트로 발전함에 따라, 개발자는 일반적으로 두 가지 뚜렷한 유형의 로직을 관리해야 합니다.

  • 백그라운드 작업: 데이터 보강이나 즉각적인 응답이 필요 없는 "생각(thinking)" 프로세스와 같은 대용량 워크플로우.
  • 대화형 작업: 챗봇 및 코파일럿과 같이 높은 안정성이 필요한 사용자 대면 기능.

지금까지는 이 두 가지를 모두 지원하기 위해 표준 동기 서비스와 비동기 배치(Batch) API 간에 아키텍처를 분리해야 했습니다. Flex와 Priority는 이러한 간극을 메우는 데 도움이 됩니다. 이제 표준 동기 엔드포인트를 사용하여 백그라운드 작업은 Flex로, 대화형 작업은 Priority로 라우팅할 수 있습니다. 이를 통해 비동기 작업 관리의 복잡성을 없애고, 특화된 등급의 경제적, 성능적 이점을 누릴 수 있습니다.

Flex Inference: 50% 낮은 비용으로 혁신 확장

Flex Inference는 대기 시간(latency)을 허용할 수 있는 워크로드를 위해 설계된 새로운 비용 최적화 등급으로, 배치 처리의 오버헤드가 없습니다.

  • 50% 비용 절감: 요청의 중요도(criticality)를 낮춤(안정성을 낮추고 대기 시간을 추가)하여 표준 API 가격의 절반만 지불합니다.
  • 동기식의 단순성: 배치 API와 달리 Flex는 동기식 인터페이스입니다. 입출력 파일을 관리하거나 작업 완료를 폴링(polling)할 필요 없이 익숙한 동일한 엔드포인트를 사용합니다.
  • 이상적인 사용 사례: 백그라운드 CRM 업데이트, 대규모 리서치 시뮬레이션, 모델이 백그라운드에서 "탐색"하거나 "생각"하는 에이전트 워크플로우.

요청에서 service_tier 매개변수를 구성하기만 하면 빠르게 시작할 수 있습니다:

Flex 등급은 모든 유료 등급에서 사용할 수 있으며, GenerateContent 및 Interactions API 요청에 사용할 수 있습니다.

Priority Inference: 중요한 앱을 위한 최고의 안정성

새로운 Priority Inference 등급은 프리미엄 가격으로 당사의 가장 높은 수준의 보증을 제공합니다. 이는 플랫폼 사용량이 최고조에 달하는 시간에도 가장 중요한 트래픽이 선점되지 않도록 보장합니다.

  • 최고 중요도: 우선 순위(Priority) 요청은 최고의 중요도를 부여받아, 피크 부하 시에도 더 높은 안정성을 제공합니다.
  • 원활한 다운그레이드: 트래픽이 Priority 제한을 초과하면, 초과된 요청은 실패하는 대신 자동으로 표준(Standard) 등급으로 처리됩니다. 이를 통해 애플리케이션이 온라인 상태를 유지하고 비즈니스 연속성을 보장합니다.
  • 투명한 응답: API 응답은 어떤 등급이 요청을 처리했는지 표시하여, 성능 및 청구에 대한 완전한 가시성을 제공합니다.
  • 이상적인 사용 사례: 실시간 고객 지원 봇, 실시간 콘텐츠 조정 파이프라인, 시간이 중요한 요청.

Priority Inference를 사용하려면 다음과 같이 service_tier 매개변수를 설정하기만 하면 됩니다:

Priority Inference는 Tier 2/3 유료 프로젝트 사용자가 GenerateContent API 및 Interactions API 엔드포인트에서 사용할 수 있습니다.

전체 가격 분석을 보고 지금 바로 프로덕션 등급 최적화를 시작하려면 Gemini API 문서를 방문하십시오. 실행 가능한 코드 예제를 보려면 쿡북(Cookbook)을 확인하십시오.

원문 보기
원문 보기 (영어)
New ways to balance cost and reliability in the Gemini API Apr 02, 2026 · Share x.com Facebook LinkedIn Mail Copy link Introducing Flex and Priority inference: advanced controls for developers to optimize costs and reliability through a single, unified interface. Lucia Loher Product Manager, Gemini API Hussein Hassan Harrirou Engineering, Gemini API Share x.com Facebook LinkedIn Mail Copy link Sorry, your browser doesn't support embedded videos, but don't worry, you can download it and watch it with your favorite video player! Your browser does not support the audio element. Listen to article This content is generated by Google AI. Generative AI is experimental [[duration]] minutes Voice Speed Voice Speed 0.75X 1X 1.5X 2X Today, we are adding two new service tiers to the Gemini API: Flex and Priority . These new options give you granular control over cost and reliability through a single, unified interface. As AI evolves from simple chat into complex, autonomous agents, developers typically have to manage two distinct types of logic: Background tasks : High-volume workflows like data enrichment or "thinking" processes that don't need instant responses. Interactive tasks : User-facing features like chatbots and copilots where high reliability is needed. Until now, supporting both meant splitting your architecture between standard synchronous serving and the asynchronous Batch API. Flex and Priority help to bridge this gap. You can now route background jobs to Flex and interactive jobs to Priority, both using standard synchronous endpoints. This eliminates the complexity of async job management while giving you the economic and performance benefits of specialized tiers. Flex Inference : scale innovation for 50% less Flex Inference is our new cost-optimized tier, designed for latency-tolerant workloads without the overhead of batch processing. 50% price savings: Pay half the price of the Standard API by downgrading criticality of your request (making them less reliable, and adding latency). Synchronous simplicity: Unlike the Batch API, Flex is a synchronous interface. You use the same familiar endpoints without managing input/output files or polling for job completion. Ideal use cases: Background CRM updates, large-scale research simulations, and agentic workflows where the model "browses" or "thinks" in the background. Get started fast by simply configuring the service_tier parameter in your request: Flex tier will be available for all paid tiers and is available for GenerateContent and Interactions API requests. Priority Inference : Highest reliability for critical apps The new Priority Inference tier offers our highest level of assurance at a premium price point. This helps to ensure your most important traffic is not preempted, even during peak platform usage. Highest criticality: Priority requests get highest criticality leading to higher reliability, even during peak load. Graceful downgrade: If your traffic exceeds your Priority limits, overflow requests are automatically served at the Standard tier instead of failing. This keeps your application online and helps to ensure business continuity. Transparent response: The API response indicates which tier served your request, giving you full visibility into your performance and billing. Ideal use cases: Real-time customer support bots, live content moderation pipelines, and time-sensitive requests. To use Priority Inference, simply set the service_tier parameter accordingly: Priority inference will be available to users with Tier 2 / 3 paid projects across the `GenerateContent` API and Interactions API endpoints. Visit the Gemini API documentation to see the full pricing breakdown and start optimizing your production tiers today. To see it in action, check out the cookbook for runnable code examples. POSTED IN: