Gemini API 비용 및 안정성 조정의 새로운 방법
구글은 Gemini API에 'Flex'와 'Priority'라는 두 가지 새로운 서비스 등급을 도입했습니다. 개발자는 단일 동기화 인터페이스를 통해 비동기 배치 처리의 복잡함 없이, 대기 시간에 영향을 줘도 되는 백그라운드 작업은 50% 저렴한 Flex로 라우팅하고 즉각적인 응답이 필수적인 대화형 작업은 안정성이 가장 높은 Priority로 라우팅할 수 있습니다. 이를 통해 개발자는 앱의 요구사항에 맞춰 비용과 성능을 정밀하게 최적화할 수 있습니다.
오늘 우리는 Gemini API에 Flex와 Priority라는 두 가지 새로운 서비스 등급(tier)을 추가합니다. 이 새로운 옵션은 단일하고 통합된 인터페이스를 통해 비용과 안정성에 대한 세밀한 제어를 제공합니다.
AI가 단순한 채팅에서 복잡하고 자율적인 에이전트로 발전함에 따라, 개발자는 일반적으로 두 가지 뚜렷한 유형의 로직을 관리해야 합니다.
- 백그라운드 작업: 데이터 보강이나 즉각적인 응답이 필요 없는 "생각(thinking)" 프로세스와 같은 대용량 워크플로우.
- 대화형 작업: 챗봇 및 코파일럿과 같이 높은 안정성이 필요한 사용자 대면 기능.
지금까지는 이 두 가지를 모두 지원하기 위해 표준 동기 서비스와 비동기 배치(Batch) API 간에 아키텍처를 분리해야 했습니다. Flex와 Priority는 이러한 간극을 메우는 데 도움이 됩니다. 이제 표준 동기 엔드포인트를 사용하여 백그라운드 작업은 Flex로, 대화형 작업은 Priority로 라우팅할 수 있습니다. 이를 통해 비동기 작업 관리의 복잡성을 없애고, 특화된 등급의 경제적, 성능적 이점을 누릴 수 있습니다.
Flex Inference: 50% 낮은 비용으로 혁신 확장
Flex Inference는 대기 시간(latency)을 허용할 수 있는 워크로드를 위해 설계된 새로운 비용 최적화 등급으로, 배치 처리의 오버헤드가 없습니다.
- 50% 비용 절감: 요청의 중요도(criticality)를 낮춤(안정성을 낮추고 대기 시간을 추가)하여 표준 API 가격의 절반만 지불합니다.
- 동기식의 단순성: 배치 API와 달리 Flex는 동기식 인터페이스입니다. 입출력 파일을 관리하거나 작업 완료를 폴링(polling)할 필요 없이 익숙한 동일한 엔드포인트를 사용합니다.
- 이상적인 사용 사례: 백그라운드 CRM 업데이트, 대규모 리서치 시뮬레이션, 모델이 백그라운드에서 "탐색"하거나 "생각"하는 에이전트 워크플로우.
요청에서 service_tier 매개변수를 구성하기만 하면 빠르게 시작할 수 있습니다:
Flex 등급은 모든 유료 등급에서 사용할 수 있으며, GenerateContent 및 Interactions API 요청에 사용할 수 있습니다.
Priority Inference: 중요한 앱을 위한 최고의 안정성
새로운 Priority Inference 등급은 프리미엄 가격으로 당사의 가장 높은 수준의 보증을 제공합니다. 이는 플랫폼 사용량이 최고조에 달하는 시간에도 가장 중요한 트래픽이 선점되지 않도록 보장합니다.
- 최고 중요도: 우선 순위(Priority) 요청은 최고의 중요도를 부여받아, 피크 부하 시에도 더 높은 안정성을 제공합니다.
- 원활한 다운그레이드: 트래픽이 Priority 제한을 초과하면, 초과된 요청은 실패하는 대신 자동으로 표준(Standard) 등급으로 처리됩니다. 이를 통해 애플리케이션이 온라인 상태를 유지하고 비즈니스 연속성을 보장합니다.
- 투명한 응답: API 응답은 어떤 등급이 요청을 처리했는지 표시하여, 성능 및 청구에 대한 완전한 가시성을 제공합니다.
- 이상적인 사용 사례: 실시간 고객 지원 봇, 실시간 콘텐츠 조정 파이프라인, 시간이 중요한 요청.
Priority Inference를 사용하려면 다음과 같이 service_tier 매개변수를 설정하기만 하면 됩니다:
Priority Inference는 Tier 2/3 유료 프로젝트 사용자가 GenerateContent API 및 Interactions API 엔드포인트에서 사용할 수 있습니다.
전체 가격 분석을 보고 지금 바로 프로덕션 등급 최적화를 시작하려면 Gemini API 문서를 방문하십시오. 실행 가능한 코드 예제를 보려면 쿡북(Cookbook)을 확인하십시오.