Google、Gemini 3.1 Flash-Liteを公開 高頻度AI workload向けに低コストと高速性を両立
Original: Gemini 3.1 Flash-Lite: Built for intelligence at scale View original →
Googleが発表した内容
2026年3月3日、GoogleはGemini 3.1 Flash-Liteを公開した。GoogleはこれをGemini 3ファミリーで最も高速かつ最もコスト効率の高いモデルと位置付け、高頻度で呼び出されるdeveloper workloadを主な対象に据えている。提供形態は即時の全面GAではなくpreviewで、開発者はGoogle AI StudioのGemini APIから、enterpriseはVertex AIから利用できる。
今回の発表で重要なのは、単なるmodel releaseではなく運用コストの最適化を前面に出している点だ。Googleは価格を$0.25/1M input tokens、$1.50/1M output tokensとし、さらにGemini 2.5 Flashより2.5倍高速な Time to First Answer Token、45%高い output speedを主張した。これは、品質だけでなく、低遅延と高throughputがそのまま事業価値に直結するproduction環境を狙ったメッセージだ。
公式発表の要点
- GoogleはArena.ai LeaderboardでElo 1432を記録したと説明している。
- GPQA Diamond 86.9%、MMMU Pro 76.8%を挙げ、reasoningとmultimodal性能でも同tierの競争力を訴求した。
- 用途としてtranslation、content moderation、user interfaceとdashboard生成、simulations、instruction followingを例示した。
- AI StudioとVertex AIではthinking levelsを標準搭載し、taskごとに推論強度を調整できるとしている。
なぜ重要か
AIの競争軸が、frontier benchmarkの勝敗だけではなく、どれだけ安く、どれだけ速く、どれだけ大量に回せるかへ移っていることがよく分かる発表だ。実運用では検索、moderation、support、workflow automation、agent executionのような処理が大量に発生するため、serving economicsの改善はそのまま導入規模と収益性を左右する。
もう一つ重要なのは、低コストtierの役割が上がっている点だ。GoogleはFlash-Liteを単純な分類モデルとしてではなく、UI生成、dashboard生成、simulation、complex instruction handlingまで担える実行層として描いている。efficient modelがproduction AIの主力レイヤーになり、より大きなmodelは必要な場面に限って使われる構図がさらに鮮明になった。
出典: Google公式発表
Related Articles
Google DeepMindは2026年3月3日、Gemini 3.1 Flash-Liteを高頻度・低遅延ワークロード向けmodelとして提示した。会社は128k input、8k output、multimodal input、native audio generation、そして$0.10/$0.40水準のtoken pricingを強調している。
Googleは Gemini API 開発者向けに Project Spend Caps、刷新した Usage Tiers、new billing dashboards を AI Studio に追加した。Paid usage へ移る team が cost と scaling 条件をより予測しやすくするための更新だ。
Googleは2026年2月4日、Developer Knowledge APIとオープンソースのMCP Serverを発表した。内部ドキュメント、ADR、コードスニペット、公開URLなどのチーム知識をGemini Code AssistやAI agent workflowへつなぎやすくする狙いがある。
Comments (0)
No comments yet. Be the first to comment!