Google DeepMind、Gemini 3.1 Flash-Liteをプレビュー提供開始

Xでの発表と公式情報

Google DeepMindは2026年3月3日（UTC）、Xで Gemini 3.1 Flash-Lite を発表し、Gemini 3シリーズで最もcost-efficientなモデルだと説明した。一次投稿は X投稿ミラー、詳細仕様は Google公式ブログに掲載されている。

公開された価格・性能指標

Googleの説明では、3.1 Flash-LiteはGoogle AI StudioのGemini APIおよびVertex AIでpreview提供される。価格は入力1M tokensあたり$0.25、出力1M tokensあたり$1.50。さらにArtificial Analysisを根拠に、2.5 Flash比でTime to First Answer Tokenが2.5倍高速、出力速度が45%向上したと主張している。

ベンチマーク値としてはArena.ai Elo 1432、GPQA Diamond 86.9%、MMMU Pro 76.8%が提示された。Googleは同クラス帯モデルとの比較で、コストと速度だけでなくreasoning/multimodal理解でも競争力がある点を強調している。

開発運用への意味

製品面で注目されるのは「thinking levels」の標準搭載だ。AI StudioとVertex AIで推論の深さを調整できるため、翻訳やcontent moderationのような高頻度処理から、UI生成・シミュレーション作成のような複雑タスクまで、同一モデル内で運用戦略を切り替えやすい。ブログではLatitude、Cartwheel、Wheringなど初期利用企業も紹介されている。

コスト面: 大量リクエスト環境で単価最適化しやすい
速度面: リアルタイム体験に必要な低遅延を重視
制御面: タスク単位でreasoning強度を調整可能

総じてFlash-Liteは、最高絶対性能よりも「実運用での価格・速度・品質バランス」を重視するproductionワークロード向けの設計として位置づけられる。