Google、100万トークン文脈と低単価を打ち出すGemini 3.1 Flash-Liteを発表

Gemini 3の低コスト運用モデル

Googleは2026年3月3日、Gemini 3.1 Flash-Liteを発表した。公式説明では、Gemini 3ファミリーの中で最速かつ最もコスト効率が高いモデルとされている。今回の価値提案は、最高性能競争よりも、大規模運用で求められる応答安定性と単価最適化を前面に出した点にある。

提供チャネルはすでに開いており、Google AI StudioとVertex AIで利用できる。さらにGoogleは、Geminiアプリでのデモ提供を今後数週間で進めるとしており、開発者向け導入と一般向け体験を並行して拡大する構図になっている。

技術仕様と価格の読みどころ

技術面での注目点は100万トークンのコンテキストウィンドウだ。長文脈処理を維持しつつ、APIではreasoning budgetを調整可能とされ、品質・速度・コストのバランスをワークロード別に最適化できる。これは、同一モデルを複数業務で使い回す際の設計自由度を高める。

価格は明確に低単価を狙っている。Google公表値では、入力（text/image/video）が100万トークンあたり0.10ドル、出力（text）が100万トークンあたり0.40ドル。分類、抽出、制約付き生成、エージェントの一次ルーティングのようにトークンコストが支配的な処理で、導入インパクトは大きい。

実装戦略への影響

Googleは、Gemini 3.1 Flash-Liteがコーディング・数学・科学・マルチモーダル推論の評価でGemini 2.5 Flash-LiteおよびGemini 2.0 Flash-Liteを上回ると説明している。外部検証は引き続き必要だが、メッセージは明快で、運用のデフォルト候補として採用しやすいモデルを狙っている。

実務では、Flash-Liteで大半のトラフィックを処理し、難問のみ上位モデルへエスカレーションする多段構成が取りやすくなる。品質とコストの両立を現場で実現するうえで、今回のリリースは現実的な中核選択肢になり得る。

Google、100万トークン文脈と低単価を打ち出すGemini 3.1 Flash-Liteを発表

Gemini 3の低コスト運用モデル

技術仕様と価格の読みどころ

実装戦略への影響

Related Articles

Google DeepMind、高頻度・低コスト処理向けGemini 3.1 Flash-Liteを公開

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化

Google Cloud、毎分160億トークン時代　勝負はモデルよりエージェント基盤

Comments (0)

Leave a Comment

Related Articles

Google DeepMind、高頻度・低コスト処理向けGemini 3.1 Flash-Liteを公開
LLM sources.twitter Mar 7, 2026 1 min read

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化
Googleは4月21日、Deep ResearchをGemini 3.1 Proベースへ引き上げ、MCP接続とMaxモードを加えた。Web検索、アップロード済みファイル、ライセンスデータを一つの調査フローにまとめたい金融・ライフサイエンス向けの動きだ。

Google Cloud、毎分160億トークン時代　勝負はモデルよりエージェント基盤
GoogleはAI事業が実験段階を 넘어運用段階に入ったと打ち出した。Cloud顧客の75%がAI製品を使い、過去12カ月で1兆トークン超を処理した顧客が330社、モデルAPI流量は毎分160億トークンに達したとして、Gemini Enterprise Agent Platformを本格投入した。

Gemini 3の低コスト運用モデル

技術仕様と価格の読みどころ

実装戦略への影響

Related Articles

Google DeepMind、高頻度・低コスト処理向けGemini 3.1 Flash-Liteを公開

Google Deep Research、Gemini 3.1 ProとMCP接続で企業調査エージェント化

Google Cloud、毎分160億トークン時代 勝負はモデルよりエージェント基盤

Comments (0)

Leave a Comment

Google Cloud、毎分160億トークン時代　勝負はモデルよりエージェント基盤