腐食中
Google DeepMind、Gemini 3.1 Pro発表 — 推論性能2倍超・ARC-AGI-2で77.1%達成
Original: Google DeepMind Releases Gemini 3.1 Pro: 2x Reasoning Boost and Record Benchmark Scores View original →
概要
Google DeepMindは2026年2月19日、Gemini 3.1 Proをリリースした。前世代のGemini 3 Pro比で推論性能が2倍以上向上し、ARC-AGI-2では31.1%から77.1%へと大幅に改善。APIの価格は据え置きのまま、18の追跡ベンチマーク中12で1位を獲得した。
ベンチマーク性能
- ARC-AGI-2: 77.1%(旧31.1%から大幅向上)
- SWE-bench Verified: 80.6%
- GPQA Diamond: 94.3%
- LiveCodeBench Pro Elo: 2887
- Humanity's Last Exam: 44.4%
- 18の追跡ベンチマーク中12で1位
主な機能
- 100万トークンコンテキスト: テキスト、画像、音声、動画に対応
- 3段階の思考レベル: Low・Medium・High — レイテンシと推論深度のバランスを調整
- 64K出力トークン: 複雑な長文タスクに最適
- マルチモーダル: テキスト・音声・画像・動画・コードリポジトリ全体を処理可能
価格とアクセス
APIの価格はGemini 3 Pro同様、入力100万トークンあたり$2、出力100万トークンあたり$12のまま据え置き。Gemini API、Vertex AI、Geminiアプリ、NotebookLMから利用可能。
Related Articles
LLM Feb 28, 2026 1 min read
Google DeepMindは2026年2月19日、Gemini 3.1 Proを発表した。ARC-AGI-2で77.1%のverified scoreを示し、開発者・企業・一般ユーザー向けに同時展開すると説明している。
LLM May 22, 2026 1 min read
Googleは5月19日のI/O 2026でGemini 3.5 Flashを発表と同日にGA公開した。Gemini 3.1 Proをコーディングとエージェントのベンチマークで上回り、速度4倍・コスト40%削減を達成。
LLM Hacker News Feb 24, 2026 1 min read
Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。