Google、Gemini 3.1 Flash-Liteをpreview公開 低コスト大量処理を狙う
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
GoogleはMar 03, 2026、Gemini 3.1 Flash-Liteを発表し、Gemini 3 seriesで最も高速かつcost-efficientなmodelだと説明した。Gemini API経由のGoogle AI Studioと、enterprise向けのVertex AIでpreview提供が始まっている。今回の発表でGoogleが強調したのは、最高性能のflagshipというより、大規模なproduct workloadを効率良く回すための運用性だ。
価格は$0.25/1M input tokensと$1.50/1M output tokens。Googleによれば、Gemini 3.1 Flash-Liteは2.5 Flash比で2.5X faster Time to First Answer Token、45% higher output speedを実現しつつ、qualityは同等かそれ以上を維持するという。translation、moderation、support automationのように呼び出し回数が多く、cost ceilingが重要な領域では特に意味の大きい改善だ。
性能指標
- Arena.aiでElo 1432。
- GPQA Diamond 86.9%。
- MMMU Pro 76.8%。
- AI StudioとVertex AIでthinking levelsを提供。
Googleが示した用途も実務寄りだ。high-volume translation、content moderation、user interfaceやdashboard generation、simulations、multi-step business tasksが挙げられている。early usersとしてLatitude、Cartwheel、Wheringも紹介された。これはFlash-Liteを単なるdemo modelではなく、product teamがそのまま組み込めるlow-latency foundationとして押し出していることを示す。
今回の発表は、model競争の軸が単一benchmarkの高さから、latency、price、managed infrastructureとの統合へ移っていることをよく表している。Googleの数値が実運用でも維持されるなら、Gemini 3.1 Flash-Liteは常時稼働するAI機能を設計する開発者にとって有力なdefault候補になるだろう。
Related Articles
Googleは2026年3月3日、Gemini 3.1 Flash-LiteをGemini 3シリーズで最も高速かつ最もコスト効率の高いモデルとして発表した。Google AI StudioのGemini APIとVertex AIでpreview提供され、価格は$0.25/1M input tokens、$1.50/1M output tokens、さらに2.5 Flash比で2.5倍高速なTime to First Answer Tokenと45%高いoutput speedを打ち出している。
GoogleがGemini 3.1 Flash-Liteをpreviewで公開した。Gemini 3シリーズで最も高速かつ低コストのモデルと位置づけ、translationやmoderation、agent workloadの大規模運用を狙う。
Googleは Gemini API 開発者向けに Project Spend Caps、刷新した Usage Tiers、new billing dashboards を AI Studio に追加した。Paid usage へ移る team が cost と scaling 条件をより予測しやすくするための更新だ。
Comments (0)
No comments yet. Be the first to comment!