Google、Gemini API に Flex・Priority tiers を追加し cost と reliability を分離制御

Googleは2026年04月02日、Gemini APIにFlexとPriorityという2つの新しいservice tiersを導入した。狙っているのはagent設計で繰り返し出てくる問題だ。background workは安く処理したい一方で、user-facing requestはpeak demand中でも止まらない高いreliabilityが必要になる。

今回の変更は、単なる価格改定ではなくarchitectureの整理でもある。これまで多くのteamは、background logicをstandard synchronous servingとasynchronous Batch APIに分けて扱う必要があった。Googleによれば、FlexとPriorityを使えばbackground trafficとinteractive trafficの両方をstandard synchronous endpoints上に保ったまま、requestごとにservice_tier parameterを設定して挙動を変えられる。

Flex Inferenceはcost-optimized optionだ。Googleは、batch-processing overheadなしでlatency-tolerant workloadsを処理でき、Standard API比で50% price savingsを実現すると述べている。例としてbackground CRM updates、large-scale research simulations、modelがbackgroundでbrowsesまたはthinksするagentic workflowsが挙げられている。Flexはall paid tiersで利用でき、GenerateContentとInteractions API requestsに対応する。

Priority Inferenceはcritical applications向けのpremium pathである。Googleは、このtierがrequestにhighest criticalityを与え、peak load時でも重要なtrafficがpreemptされにくくなると説明する。さらにPriority limitsを超えた場合でも、overflow requestsは失敗せずStandard tierで処理される。PriorityはTier 2 / 3 paid projects向けにGenerateContentとInteractions API endpointsで提供される。

Flexはsynchronousな開発体験を保ちながらinference costを下げる。
Priorityはtime-sensitive trafficのassuranceを高め、graceful downgradeを加える。
両tierによって、request-level economicsとreliabilityがapplication設計の一部になる。

戦略的には、model APIが単なるtoken提供から、agentic applications向けtraffic-management layerへ進化していることを示す。Googleはmodel accessだけでなく、workloadごとに最適化されたruntime behaviorそのものを販売し始めている。

Google、Gemini API に Flex・Priority tiers を追加し cost と reliability を分離制御

Related Articles

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

Google、Gemini 3.1 Flash-Liteをpreview公開高速・低コストLLMで大規模推論を狙う

Google I/O 2026：Gemini 3.5 Flash登場 — フラッグシップ性能をFlash速度で実現

Comments (0)

Leave a Comment

Related Articles

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍
LLM Reddit May 6, 2026 1 min read

Google、Gemini 3.1 Flash-Liteをpreview公開高速・低コストLLMで大規模推論を狙う
LLM Mar 22, 2026 1 min read

Google I/O 2026：Gemini 3.5 Flash登場 — フラッグシップ性能をFlash速度で実現
LLM May 22, 2026 1 min read