Google、Gemini 3.1 Flash-Liteを公開　高頻度AI workload向けに低コストと高速性を両立

Googleが発表した内容

2026年3月3日、GoogleはGemini 3.1 Flash-Liteを公開した。GoogleはこれをGemini 3ファミリーで最も高速かつ最もコスト効率の高いモデルと位置付け、高頻度で呼び出されるdeveloper workloadを主な対象に据えている。提供形態は即時の全面GAではなくpreviewで、開発者はGoogle AI StudioのGemini APIから、enterpriseはVertex AIから利用できる。

今回の発表で重要なのは、単なるmodel releaseではなく運用コストの最適化を前面に出している点だ。Googleは価格を$0.25/1M input tokens、$1.50/1M output tokensとし、さらにGemini 2.5 Flashより2.5倍高速な Time to First Answer Token、45%高い output speedを主張した。これは、品質だけでなく、低遅延と高throughputがそのまま事業価値に直結するproduction環境を狙ったメッセージだ。

公式発表の要点

GoogleはArena.ai LeaderboardでElo 1432を記録したと説明している。
GPQA Diamond 86.9%、MMMU Pro 76.8%を挙げ、reasoningとmultimodal性能でも同tierの競争力を訴求した。
用途としてtranslation、content moderation、user interfaceとdashboard生成、simulations、instruction followingを例示した。
AI StudioとVertex AIではthinking levelsを標準搭載し、taskごとに推論強度を調整できるとしている。

なぜ重要か

AIの競争軸が、frontier benchmarkの勝敗だけではなく、どれだけ安く、どれだけ速く、どれだけ大量に回せるかへ移っていることがよく分かる発表だ。実運用では検索、moderation、support、workflow automation、agent executionのような処理が大量に発生するため、serving economicsの改善はそのまま導入規模と収益性を左右する。

もう一つ重要なのは、低コストtierの役割が上がっている点だ。GoogleはFlash-Liteを単純な分類モデルとしてではなく、UI生成、dashboard生成、simulation、complex instruction handlingまで担える実行層として描いている。efficient modelがproduction AIの主力レイヤーになり、より大きなmodelは必要な場面に限って使われる構図がさらに鮮明になった。

出典: Google公式発表

Google、Gemini 3.1 Flash-Liteを公開　高頻度AI workload向けに低コストと高速性を両立

Googleが発表した内容

公式発表の要点

なぜ重要か

Related Articles

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

Google、Gemini API に project spend caps と自動 tier upgrade を導入

Google、Developer Knowledge APIとMCP Serverを公開 Gemini Code Assistにチーム知識を接続

Comments (0)

Leave a Comment

Related Articles

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

Google、Gemini API に project spend caps と自動 tier upgrade を導入

Google、Developer Knowledge APIとMCP Serverを公開 Gemini Code Assistにチーム知識を接続