Google、Gemini API に Flex・Priority tiers を追加し cost と reliability を分離制御
Original: Flex and Priority tiers in the Gemini API View original →
Googleは2026年04月02日、Gemini APIにFlexとPriorityという2つの新しいservice tiersを導入した。狙っているのはagent設計で繰り返し出てくる問題だ。background workは安く処理したい一方で、user-facing requestはpeak demand中でも止まらない高いreliabilityが必要になる。
今回の変更は、単なる価格改定ではなくarchitectureの整理でもある。これまで多くのteamは、background logicをstandard synchronous servingとasynchronous Batch APIに分けて扱う必要があった。Googleによれば、FlexとPriorityを使えばbackground trafficとinteractive trafficの両方をstandard synchronous endpoints上に保ったまま、requestごとにservice_tier parameterを設定して挙動を変えられる。
Flex Inferenceはcost-optimized optionだ。Googleは、batch-processing overheadなしでlatency-tolerant workloadsを処理でき、Standard API比で50% price savingsを実現すると述べている。例としてbackground CRM updates、large-scale research simulations、modelがbackgroundでbrowsesまたはthinksするagentic workflowsが挙げられている。Flexはall paid tiersで利用でき、GenerateContentとInteractions API requestsに対応する。
Priority Inferenceはcritical applications向けのpremium pathである。Googleは、このtierがrequestにhighest criticalityを与え、peak load時でも重要なtrafficがpreemptされにくくなると説明する。さらにPriority limitsを超えた場合でも、overflow requestsは失敗せずStandard tierで処理される。PriorityはTier 2 / 3 paid projects向けにGenerateContentとInteractions API endpointsで提供される。
- Flexはsynchronousな開発体験を保ちながらinference costを下げる。
- Priorityはtime-sensitive trafficのassuranceを高め、graceful downgradeを加える。
- 両tierによって、request-level economicsとreliabilityがapplication設計の一部になる。
戦略的には、model APIが単なるtoken提供から、agentic applications向けtraffic-management layerへ進化していることを示す。Googleはmodel accessだけでなく、workloadごとに最適化されたruntime behaviorそのものを販売し始めている。
Related Articles
GoogleがGemini 3.1 Flash-Liteをpreviewで公開した。Gemini 3シリーズで最も高速かつ低コストのモデルと位置づけ、translationやmoderation、agent workloadの大規模運用を狙う。
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
Googleは、coding agentsがmodel training dataのcutoffのため古いGemini API codeを生成しうると説明し、その対策としてDocs MCPとDeveloper Skillsを組み合わせて提示した。両方を使うと、eval setでvanilla prompting比96.3% pass rate、63% fewer tokens per correct answerを記録したという。
Comments (0)
No comments yet. Be the first to comment!