Google、Gemini 3.1 Flash-Liteを公開 128k contextと低価格で高頻度処理を狙う

Original: Gemini 3.1 Flash-Lite View original →

Read in other languages: 한국어English
LLM Mar 16, 2026 By Insights AI 1 min read Source

どんなmodelなのか

Google DeepMindはGemini 3.1 Flash-Liteを、高頻度で呼び出されるcost-sensitive workload向けのworkhorse modelとして位置づけている。2026年3月3日時点のproduct pageとmodel cardによれば、このmodelはrouting、classification、information extraction、lightweight agent処理のように、大型modelを毎回使う必要がない場面を狙っている。Flash familyの使い勝手を保ちながら、より攻めた価格帯を提示した形だ。

model cardでは128k input context8k outputが示されている。さらにGoogleは、価格を$0.10 per 1M input tokens$0.40 per 1M output tokens$0.025 per 1M cached tokensとして公開した。product pageではmultimodal対応に加え、native audio generationも含むとしており、低価格modelでありながらFlash系の主要機能を保つ点を強調している。

Googleの主張する強み

GoogleはGemini 3.1 Flash-Liteが、code、math、science reasoning、multimodal benchmarkで他のlite modelだけでなく一部のより大きなmodelも上回ると説明している。ここでのポイントは最高性能そのものではなく、価格対性能だ。大規模batchや高速応答が必要なproductでは、最強modelよりも、十分な精度を安く出せるmodelのほうが重要になる。

利用経路も広く、GoogleはこのmodelをGoogle AI StudioGemini APIVertex AIで提供している。試作から本番まで同じfamilyのmodelで揃えられることは、運用面での摩擦を下げる。

なぜ重要か

Flash-Liteが示すのは、2026年のLLM競争が「最も賢いmodel」だけではなく、「十分に賢く、十分に安く、十分に速いmodel」を巡る競争に移っていることだ。大規模AI productが増えるほど、unit economicsは中心的な競争軸になる。Gemini 3.1 Flash-Liteは、その変化をGoogleが明確に打ち出した発表といえる。

出典: Google DeepMind

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.