Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う
Original: Gemini 3.1 Flash-Lite View original →
どんなmodelなのか
Google DeepMindはGemini 3.1 Flash-Liteを、高頻度で呼び出されるcost-sensitive workload向けのworkhorse modelとして位置づけている。2026年3月3日時点のproduct pageとmodel cardによれば、このmodelはrouting、classification、information extraction、lightweight agent処理のように、大型modelを毎回使う必要がない場面を狙っている。Flash familyの使い勝手を保ちながら、より攻めた価格帯を提示した形だ。
model cardでは128k input contextと8k outputが示されている。さらにGoogleは、価格を$0.10 per 1M input tokens、$0.40 per 1M output tokens、$0.025 per 1M cached tokensとして公開した。product pageではmultimodal対応に加え、native audio generationも含むとしており、低価格modelでありながらFlash系の主要機能を保つ点を強調している。
Googleの主張する強み
GoogleはGemini 3.1 Flash-Liteが、code、math、science reasoning、multimodal benchmarkで他のlite modelだけでなく一部のより大きなmodelも上回ると説明している。ここでのポイントは最高性能そのものではなく、価格対性能だ。大規模batchや高速応答が必要なproductでは、最強modelよりも、十分な精度を安く出せるmodelのほうが重要になる。
利用経路も広く、GoogleはこのmodelをGoogle AI Studio、Gemini API、Vertex AIで提供している。試作から本番まで同じfamilyのmodelで揃えられることは、運用面での摩擦を下げる。
なぜ重要か
Flash-Liteが示すのは、2026年のLLM競争が「最も賢いmodel」だけではなく、「十分に賢く、十分に安く、十分に速いmodel」を巡る競争に移っていることだ。大規模AI productが増えるほど、unit economicsは中心的な競争軸になる。Gemini 3.1 Flash-Liteは、その変化をGoogleが明確に打ち出した発表といえる。
出典: Google DeepMind
Related Articles
GoogleはMarch 3, 2026、Gemini 3.1 Flash-LiteをGemini 3系で最速かつ最もコスト効率の高いモデルとして発表した。previewはGoogle AI StudioとVertex AIで始まり、価格は$0.25/1M input tokens、$1.50/1M output tokensだ。
GoogleはGemini in Google SheetsがSpreadsheetBench全体で70.48%を記録し、human expert能力に近づいたと発表した。同社はこの結果をproduct-specific tuningと強化されたverbalization、coding capabilityの成果だと説明している。
Google AI Developersは、Gemini Embedding 2をGemini APIとVertex AIでpreview提供すると発表した。Gemini architectureベースで初のfully multimodal embedding modelであり、現時点で最もcapableなembedding modelだとしている。
Comments (0)
No comments yet. Be the first to comment!