Google DeepMind、Gemini 3.1 Pro発表 — 推論性能2倍超・ARC-AGI-2で77.1%達成
Original: Google DeepMind Releases Gemini 3.1 Pro: 2x Reasoning Boost and Record Benchmark Scores View original →
概要
Google DeepMindは2026年2月19日、Gemini 3.1 Proをリリースした。前世代のGemini 3 Pro比で推論性能が2倍以上向上し、ARC-AGI-2では31.1%から77.1%へと大幅に改善。APIの価格は据え置きのまま、18の追跡ベンチマーク中12で1位を獲得した。
ベンチマーク性能
- ARC-AGI-2: 77.1%(旧31.1%から大幅向上)
- SWE-bench Verified: 80.6%
- GPQA Diamond: 94.3%
- LiveCodeBench Pro Elo: 2887
- Humanity's Last Exam: 44.4%
- 18の追跡ベンチマーク中12で1位
主な機能
- 100万トークンコンテキスト: テキスト、画像、音声、動画に対応
- 3段階の思考レベル: Low・Medium・High — レイテンシと推論深度のバランスを調整
- 64K出力トークン: 複雑な長文タスクに最適
- マルチモーダル: テキスト・音声・画像・動画・コードリポジトリ全体を処理可能
価格とアクセス
APIの価格はGemini 3 Pro同様、入力100万トークンあたり$2、出力100万トークンあたり$12のまま据え置き。Gemini API、Vertex AI、Geminiアプリ、NotebookLMから利用可能。
Related Articles
Google DeepMindは2026年2月19日、Gemini 3.1 Proを発表した。ARC-AGI-2で77.1%のverified scoreを示し、開発者・企業・一般ユーザー向けに同時展開すると説明している。
Opperが53種類の主要LLMを対象に「カーウォッシュ」論理テストを実施。「洗車場が50メートル先にある。歩くべきか、運転すべきか?」というシンプルな問いに正解できたのはわずか11モデルだった。
Mistralは2026年3月16日、reasoning、multimodal入力、agentic codingを1つにまとめたMistral Small 4を公開した。119B total parameters、6B active parameters、256k context window、Apache 2.0、configurable reasoning_effortが主要ポイントだ。
Comments (0)
No comments yet. Be the first to comment!