Google、Gemini API に Flex・Priority tiers を追加し cost と reliability を分離制御
Original: Flex and Priority tiers in the Gemini API View original →
Googleは2026年04月02日、Gemini APIにFlexとPriorityという2つの新しいservice tiersを導入した。狙っているのはagent設計で繰り返し出てくる問題だ。background workは安く処理したい一方で、user-facing requestはpeak demand中でも止まらない高いreliabilityが必要になる。
今回の変更は、単なる価格改定ではなくarchitectureの整理でもある。これまで多くのteamは、background logicをstandard synchronous servingとasynchronous Batch APIに分けて扱う必要があった。Googleによれば、FlexとPriorityを使えばbackground trafficとinteractive trafficの両方をstandard synchronous endpoints上に保ったまま、requestごとにservice_tier parameterを設定して挙動を変えられる。
Flex Inferenceはcost-optimized optionだ。Googleは、batch-processing overheadなしでlatency-tolerant workloadsを処理でき、Standard API比で50% price savingsを実現すると述べている。例としてbackground CRM updates、large-scale research simulations、modelがbackgroundでbrowsesまたはthinksするagentic workflowsが挙げられている。Flexはall paid tiersで利用でき、GenerateContentとInteractions API requestsに対応する。
Priority Inferenceはcritical applications向けのpremium pathである。Googleは、このtierがrequestにhighest criticalityを与え、peak load時でも重要なtrafficがpreemptされにくくなると説明する。さらにPriority limitsを超えた場合でも、overflow requestsは失敗せずStandard tierで処理される。PriorityはTier 2 / 3 paid projects向けにGenerateContentとInteractions API endpointsで提供される。
- Flexはsynchronousな開発体験を保ちながらinference costを下げる。
- Priorityはtime-sensitive trafficのassuranceを高め、graceful downgradeを加える。
- 両tierによって、request-level economicsとreliabilityがapplication設計の一部になる。
戦略的には、model APIが単なるtoken提供から、agentic applications向けtraffic-management layerへ進化していることを示す。Googleはmodel accessだけでなく、workloadごとに最適化されたruntime behaviorそのものを販売し始めている。
Related Articles
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
GoogleがGemini 3.1 Flash-Liteをpreviewで公開した。Gemini 3シリーズで最も高速かつ低コストのモデルと位置づけ、translationやmoderation、agent workloadの大規模運用を狙う。
Googleは5月19日のI/O 2026でGemini 3.5 Flashを発表と同日にGA公開した。Gemini 3.1 Proをコーディングとエージェントのベンチマークで上回り、速度4倍・コスト40%削減を達成。
Comments (0)
No comments yet. Be the first to comment!