Google、100万トークン文脈と低単価を打ち出すGemini 3.1 Flash-Liteを発表
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Gemini 3の低コスト運用モデル
Googleは2026年3月3日、Gemini 3.1 Flash-Liteを発表した。公式説明では、Gemini 3ファミリーの中で最速かつ最もコスト効率が高いモデルとされている。今回の価値提案は、最高性能競争よりも、大規模運用で求められる応答安定性と単価最適化を前面に出した点にある。
提供チャネルはすでに開いており、Google AI StudioとVertex AIで利用できる。さらにGoogleは、Geminiアプリでのデモ提供を今後数週間で進めるとしており、開発者向け導入と一般向け体験を並行して拡大する構図になっている。
技術仕様と価格の読みどころ
技術面での注目点は100万トークンのコンテキストウィンドウだ。長文脈処理を維持しつつ、APIではreasoning budgetを調整可能とされ、品質・速度・コストのバランスをワークロード別に最適化できる。これは、同一モデルを複数業務で使い回す際の設計自由度を高める。
価格は明確に低単価を狙っている。Google公表値では、入力(text/image/video)が100万トークンあたり0.10ドル、出力(text)が100万トークンあたり0.40ドル。分類、抽出、制約付き生成、エージェントの一次ルーティングのようにトークンコストが支配的な処理で、導入インパクトは大きい。
実装戦略への影響
Googleは、Gemini 3.1 Flash-Liteがコーディング・数学・科学・マルチモーダル推論の評価でGemini 2.5 Flash-LiteおよびGemini 2.0 Flash-Liteを上回ると説明している。外部検証は引き続き必要だが、メッセージは明快で、運用のデフォルト候補として採用しやすいモデルを狙っている。
実務では、Flash-Liteで大半のトラフィックを処理し、難問のみ上位モデルへエスカレーションする多段構成が取りやすくなる。品質とコストの両立を現場で実現するうえで、今回のリリースは現実的な中核選択肢になり得る。
Related Articles
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを発表し、低価格と高速性を前面に出した。Google AI StudioとVertex AIでpreview提供され、高頻度・低遅延の開発ワークロードを主な対象とする。
Google AI Developersは、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベースで初のfully multimodal embedding modelであり、現時点で最もcapableなembedding modelだとしている。
GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
Comments (0)
No comments yet. Be the first to comment!