Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

どんなmodelなのか

Google DeepMindはGemini 3.1 Flash-Liteを、高頻度で呼び出されるcost-sensitive workload向けのworkhorse modelとして位置づけている。2026年3月3日時点のproduct pageとmodel cardによれば、このmodelはrouting、classification、information extraction、lightweight agent処理のように、大型modelを毎回使う必要がない場面を狙っている。Flash familyの使い勝手を保ちながら、より攻めた価格帯を提示した形だ。

model cardでは128k input contextと8k outputが示されている。さらにGoogleは、価格を$0.10 per 1M input tokens、$0.40 per 1M output tokens、$0.025 per 1M cached tokensとして公開した。product pageではmultimodal対応に加え、native audio generationも含むとしており、低価格modelでありながらFlash系の主要機能を保つ点を強調している。

Googleの主張する強み

GoogleはGemini 3.1 Flash-Liteが、code、math、science reasoning、multimodal benchmarkで他のlite modelだけでなく一部のより大きなmodelも上回ると説明している。ここでのポイントは最高性能そのものではなく、価格対性能だ。大規模batchや高速応答が必要なproductでは、最強modelよりも、十分な精度を安く出せるmodelのほうが重要になる。

利用経路も広く、GoogleはこのmodelをGoogle AI Studio、Gemini API、Vertex AIで提供している。試作から本番まで同じfamilyのmodelで揃えられることは、運用面での摩擦を下げる。

なぜ重要か

Flash-Liteが示すのは、2026年のLLM競争が「最も賢いmodel」だけではなく、「十分に賢く、十分に安く、十分に速いmodel」を巡る競争に移っていることだ。大規模AI productが増えるほど、unit economicsは中心的な競争軸になる。Gemini 3.1 Flash-Liteは、その変化をGoogleが明確に打ち出した発表といえる。

出典: Google DeepMind

Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

どんなmodelなのか

Googleの主張する強み

なぜ重要か

Related Articles

Google、Gemini 3.1 Flash-Liteをpreview公開最速かつ最も低コストなGemini 3モデルに

Google、Gemini in Sheets が SpreadsheetBench 70.48%でSOTA到達と発表

Google、multimodal retrieval向けGemini Embedding 2をpreview公開

Comments (0)

Leave a Comment

Related Articles

Google、Gemini 3.1 Flash-Liteをpreview公開最速かつ最も低コストなGemini 3モデルに

Google、Gemini in Sheets が SpreadsheetBench 70.48%でSOTA到達と発表

Google、multimodal retrieval向けGemini Embedding 2をpreview公開

どんなmodelなのか

Googleの主張する強み

なぜ重要か

Related Articles

Google、Gemini 3.1 Flash-Liteをpreview公開 最速かつ最も低コストなGemini 3モデルに

Google、Gemini in Sheets が SpreadsheetBench 70.48%でSOTA到達と発表

Google、multimodal retrieval向けGemini Embedding 2をpreview公開

Comments (0)

Leave a Comment

Google、Gemini 3.1 Flash-Liteをpreview公開最速かつ最も低コストなGemini 3モデルに