Google、Gemini 3.1 Flash-Liteをpreview公開 高速・低コストLLMで大規模推論を狙う
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Googleは2026年3月3日、Gemini 3.1 Flash-Liteを発表し、Google AI StudioのGemini APIとVertex AIでpreview提供を開始した。GoogleはこのモデルをGemini 3シリーズの中で最も高速かつ低コストな選択肢と説明し、大量の推論リクエストを処理する開発者向けworkloadに焦点を当てている。
公開内容のポイント
Googleによると、Gemini 3.1 Flash-Liteの価格はinput 100万tokenあたり$0.25、output 100万tokenあたり$1.50だ。Artificial Analysis benchmarkでは、2.5 Flash比でfirst answer tokenまでの時間が2.5倍高速、output速度は45%高く、品質は同等以上だとしている。
Googleはさらに、Arena.ai Elo 1432、GPQA Diamond 86.9%、MMMU Pro 76.8%といったbenchmarkも示した。Google AI StudioとVertex AIではthinking levelを調整できるため、開発者はtaskごとにlatency、コスト、reasoning深度のバランスを選べるとしている。
狙うworkload
Googleが例示した中心用途は、high-volume translation、content moderation、labelingのように低遅延と安定した単価が重要な反復型の推論処理だ。一方で、UI生成、dashboard生成、simulation、multi-step business taskの実行も挙げており、小型tierでも単純分類にとどまらない役割を担えると訴えている。
Googleが挙げたearly-access利用例にはLatitude、Cartwheel、Whering、HubXが含まれる。ここで強調されているのはfrontier researchではなく、instruction following、multimodal labeling、大規模catalog処理のような運用系パイプラインだ。
意味と今後の焦点
今回の発表で重要なのは、Googleがbenchmarkの見栄えよりも速度と価格を前面に出している点だ。agent、search、moderationのような常時稼働システムでは、モデル品質だけでなく運用コストと応答時間が導入可否を左右する。previewの数値がproductionでも維持されるなら、Gemini 3.1 Flash-Liteはコスト重視のLLM運用に新たな選択肢を与える。
ただし現時点ではpreview段階だ。企業導入の広がりは、実運用トラフィック下での安定性、support体制、そしてGoogleが示したbenchmarkが個別workloadでも再現されるかにかかっている。
Source: Google
Related Articles
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
Googleは2026年3月3日、Gemini 3.1 Flash-LiteをGemini 3シリーズで最も高速かつ最もコスト効率の高いモデルとして発表した。Google AI StudioのGemini APIとVertex AIでpreview提供され、価格は$0.25/1M input tokens、$1.50/1M output tokens、さらに2.5 Flash比で2.5倍高速なTime to First Answer Tokenと45%高いoutput speedを打ち出している。
2026年3月18日にLocalLLaMAで注目を集めたMamba-3は、Carnegie Mellon University、Princeton、Cartesia AI、Together AIの研究者が公開したstate space modelだ。設計目標をtraining speedからinference efficiencyへ移し、1.5B scaleでMamba-2やGated DeltaNet、Llama-3.2-1Bを上回るprefill+decode latencyを主張している。
Comments (0)
No comments yet. Be the first to comment!