Google、Gemini 3.1 Proリリース — ARC-AGI-2で77.1%達成、推論性能が2倍に
Google DeepMind、Gemini 3.1 Proを正式リリース
Google DeepMindは2026年2月19日、Gemini 3.1 Proを正式リリースした。Gemini 3シリーズの最新版として、複雑な推論とマルチモーダル理解能力が大幅に強化されている。
主要ベンチマーク結果
AI推論能力の核心指標であるARC-AGI-2で77.1%を達成。前作Gemini 3 Proの31.1%の2倍以上の向上だ。SWE-Bench Verifiedでは80.6%、GPQA Diamondでは94.3%を記録した。Terminal-Bench 2.0では68.5%を記録している。
技術仕様
入力コンテキスト窓は100万トークンをサポートし、1,500ページ以上のテキストやコードリポジトリ全体を一度に処理できる。最大出力トークン数は65,536。テキスト、画像、音声、動画、コードをネイティブにサポートするマルチモーダル能力を備えている。
主な改善点
推論の深さを「minimal」から「high」まで4段階で調節できる思考レベル機能が追加された。ハルシネーションはAA-Omniscienceベンチマーク基準で88%から50%へと大幅に低減した。複雑なマルチステップタスクを並行処理するエージェント的ワークフローの信頼性も向上した。
価格とアクセス方法
価格は前作と同水準を維持。入力トークンは200K以下で$2/1M、超過は$4/1M、出力トークンは200K以下で$12/1M、超過は$18/1M。Google AI Studio、Vertex AI、Gemini API、NotebookLM、Microsoft Foundryから利用可能。Deep ThinkモードはGoogle AI Ultraサブスクライバー向けに提供される。
Related Articles
Google AI DevelopersがAndroid開発向けLLM評価基盤のAndroid Benchを公開した。初回結果ではGemini 3.1 Proが首位となり、benchmark、dataset、test harnessも公開された。
GoogleがGemini 3.1 Proをリリースし、ARC-AGI-2ベンチマークで77.1%を記録。前モデル比2倍以上の推論性能向上を実現し、Deep Thinkレベルの高度な推論機能をすべてのユーザーと開発者に提供開始した。
Google DeepMindはGemini 3.1 Flash-LiteがGemini APIとGoogle AI Studioでpreview提供されると発表した。同社はこれを最もcost-efficientなGemini 3 modelと位置づけ、低価格・高速性能・調整可能なthinking levelsを強調している。
Comments (0)
No comments yet. Be the first to comment!