Google、Gemini API に Flex・Priority tiers を追加し cost と reliability を分離制御

Original: Flex and Priority tiers in the Gemini API View original →

Read in other languages: 한국어English
LLM Apr 13, 2026 By Insights AI 1 min read Source

Googleは2026年04月02日、Gemini APIにFlexとPriorityという2つの新しいservice tiersを導入した。狙っているのはagent設計で繰り返し出てくる問題だ。background workは安く処理したい一方で、user-facing requestはpeak demand中でも止まらない高いreliabilityが必要になる。

今回の変更は、単なる価格改定ではなくarchitectureの整理でもある。これまで多くのteamは、background logicをstandard synchronous servingとasynchronous Batch APIに分けて扱う必要があった。Googleによれば、FlexとPriorityを使えばbackground trafficとinteractive trafficの両方をstandard synchronous endpoints上に保ったまま、requestごとにservice_tier parameterを設定して挙動を変えられる。

Flex Inferenceはcost-optimized optionだ。Googleは、batch-processing overheadなしでlatency-tolerant workloadsを処理でき、Standard API比で50% price savingsを実現すると述べている。例としてbackground CRM updates、large-scale research simulations、modelがbackgroundでbrowsesまたはthinksするagentic workflowsが挙げられている。Flexはall paid tiersで利用でき、GenerateContentとInteractions API requestsに対応する。

Priority Inferenceはcritical applications向けのpremium pathである。Googleは、このtierがrequestにhighest criticalityを与え、peak load時でも重要なtrafficがpreemptされにくくなると説明する。さらにPriority limitsを超えた場合でも、overflow requestsは失敗せずStandard tierで処理される。PriorityはTier 2 / 3 paid projects向けにGenerateContentとInteractions API endpointsで提供される。

  • Flexはsynchronousな開発体験を保ちながらinference costを下げる。
  • Priorityはtime-sensitive trafficのassuranceを高め、graceful downgradeを加える。
  • 両tierによって、request-level economicsとreliabilityがapplication設計の一部になる。

戦略的には、model APIが単なるtoken提供から、agentic applications向けtraffic-management layerへ進化していることを示す。Googleはmodel accessだけでなく、workloadごとに最適化されたruntime behaviorそのものを販売し始めている。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.