Redditで注目: Gemini 3 Deep Think更新、科学・工学向け指標を公開
Original: Google upgraded Gemini-3 DeepThink: Advancing science, research and engineering View original →
Redditで拡散した公式アップデート
r/singularityの投稿は、GoogleによるGemini 3 Deep Thinkの更新発表を迅速に共有した。取得時点で投稿はscore 675、comments 51。一次情報はGoogle公式ブログ Gemini 3 Deep Think で、科学・研究・工学の難問に対応するspecialized reasoning modeの強化を中心に説明している。
公開された主要ベンチマーク
公式発表で示された主な数値は、Humanity’s Last Examで48.4%(without tools)、ARC-AGI-2で84.6%(ARC Prize Foundationによる検証表記)、CodeforcesでElo 3455。さらにInternational Math Olympiad 2025でgold-medal level performanceとされる。数学・競技プログラミングに加えて、2025年のPhysics Olympiad/Chemistry Olympiadのwritten sectionやCMT-Benchmark 50.5%など、科学領域での指標も示された。
利用可能範囲と実運用への示唆
Googleの説明では、更新版Deep ThinkはGoogle AI Ultra加入者向けにGeminiアプリで提供開始。同時に、研究者・エンジニア・企業向けにGemini APIのearly access申請も開始された。事例として、Rutgersでの高難度数学論文の論理的欠陥検出、Duke University Wang Labでの半導体材料探索に向けた薄膜成長レシピ設計(100 μm超)が紹介されている。
コミュニティが注目した理由
この投稿が伸びた背景には、ベンチマーク成績の提示とAPI提供計画が同時に示された点がある。評価から導入までの距離が短くなり、研究ツールチェーンへの接続可能性が具体化したためだ。実務では、単一スコアよりもドメイン別の再現テスト、失敗ケース分析、既存ツールとの接続品質が成否を左右する。とはいえ今回の更新は、reasoning modelが実験的機能から運用基盤へ近づいている流れを示す重要なシグナルと言える。
Related Articles
重要なのは、open-weight 27B dense modelがはるかに大きいcoding systemとagent taskで正面比較されていることだ。Qwenのmodel cardではSWE-bench VerifiedがQwen3.6-27Bで77.2、Qwen3.5-397B-A17Bで76.2、licenseはApache 2.0となっている。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
Googleは4月21日、Deep ResearchをGemini 3.1 Proベースへ引き上げ、MCP接続とMaxモードを加えた。Web検索、アップロード済みファイル、ライセンスデータを一つの調査フローにまとめたい金融・ライフサイエンス向けの動きだ。
Comments (0)
No comments yet. Be the first to comment!