Google DeepMind、Gemini 3.1 Pro発表 — 推論性能2倍超・ARC-AGI-2で77.1%達成
Original: Google DeepMind Releases Gemini 3.1 Pro: 2x Reasoning Boost and Record Benchmark Scores View original →
概要
Google DeepMindは2026年2月19日、Gemini 3.1 Proをリリースした。前世代のGemini 3 Pro比で推論性能が2倍以上向上し、ARC-AGI-2では31.1%から77.1%へと大幅に改善。APIの価格は据え置きのまま、18の追跡ベンチマーク中12で1位を獲得した。
ベンチマーク性能
- ARC-AGI-2: 77.1%(旧31.1%から大幅向上)
- SWE-bench Verified: 80.6%
- GPQA Diamond: 94.3%
- LiveCodeBench Pro Elo: 2887
- Humanity's Last Exam: 44.4%
- 18の追跡ベンチマーク中12で1位
主な機能
- 100万トークンコンテキスト: テキスト、画像、音声、動画に対応
- 3段階の思考レベル: Low・Medium・High — レイテンシと推論深度のバランスを調整
- 64K出力トークン: 複雑な長文タスクに最適
- マルチモーダル: テキスト・音声・画像・動画・コードリポジトリ全体を処理可能
価格とアクセス
APIの価格はGemini 3 Pro同様、入力100万トークンあたり$2、出力100万トークンあたり$12のまま据え置き。Gemini API、Vertex AI、Geminiアプリ、NotebookLMから利用可能。
Related Articles
Google AI DevelopersがAndroid開発向けLLM評価基盤のAndroid Benchを公開した。初回結果ではGemini 3.1 Proが首位となり、benchmark、dataset、test harnessも公開された。
Google DeepMindは2026年2月19日、Gemini 3.1 Proを発表した。ARC-AGI-2で77.1%のverified scoreを示し、開発者・企業・一般ユーザー向けに同時展開すると説明している。
Hacker Newsで注目を集めたのは、Sarvam AIがIndiaAI missionのcomputeでインド国内学習した reasoning重視のMoEモデル Sarvam 30Bと105B を公開した点だ。単なるweights公開ではなく、製品投入、inference最適化、Indian-language benchmarkまで含めた発表になっている。
Comments (0)
No comments yet. Be the first to comment!