Redditで注目: Gemini 3 Deep Think更新、科学・工学向け指標を公開
Original: Google upgraded Gemini-3 DeepThink: Advancing science, research and engineering View original →
Redditで拡散した公式アップデート
r/singularityの投稿は、GoogleによるGemini 3 Deep Thinkの更新発表を迅速に共有した。取得時点で投稿はscore 675、comments 51。一次情報はGoogle公式ブログ Gemini 3 Deep Think で、科学・研究・工学の難問に対応するspecialized reasoning modeの強化を中心に説明している。
公開された主要ベンチマーク
公式発表で示された主な数値は、Humanity’s Last Examで48.4%(without tools)、ARC-AGI-2で84.6%(ARC Prize Foundationによる検証表記)、CodeforcesでElo 3455。さらにInternational Math Olympiad 2025でgold-medal level performanceとされる。数学・競技プログラミングに加えて、2025年のPhysics Olympiad/Chemistry Olympiadのwritten sectionやCMT-Benchmark 50.5%など、科学領域での指標も示された。
利用可能範囲と実運用への示唆
Googleの説明では、更新版Deep ThinkはGoogle AI Ultra加入者向けにGeminiアプリで提供開始。同時に、研究者・エンジニア・企業向けにGemini APIのearly access申請も開始された。事例として、Rutgersでの高難度数学論文の論理的欠陥検出、Duke University Wang Labでの半導体材料探索に向けた薄膜成長レシピ設計(100 μm超)が紹介されている。
コミュニティが注目した理由
この投稿が伸びた背景には、ベンチマーク成績の提示とAPI提供計画が同時に示された点がある。評価から導入までの距離が短くなり、研究ツールチェーンへの接続可能性が具体化したためだ。実務では、単一スコアよりもドメイン別の再現テスト、失敗ケース分析、既存ツールとの接続品質が成否を左右する。とはいえ今回の更新は、reasoning modelが実験的機能から運用基盤へ近づいている流れを示す重要なシグナルと言える。
Related Articles
GoogleはGemini in Google SheetsがSpreadsheetBench全体で70.48%を記録し、human expert能力に近づいたと発表した。同社はこの結果をproduct-specific tuningと強化されたverbalization、coding capabilityの成果だと説明している。
Google I/O 2026の焦点は、Geminiを単独アプリではなく実行レイヤーとして広げることにある。Gemini 3.5 FlashはAPI、Antigravity、Android Studio、Search、Gemini appへ広がり、Gemini Omni Flashはvideo生成を同じ流れに乗せる。
Googleは5月19日のGoogle I/O 2026で、Gemini 3.1 Proを全ベンチマークで上回りながら速度4倍・コスト半減を実現したGemini 3.5 Flashと、24時間稼働の個人AIエージェントGemini Sparkを同時発表した。Sparkは翌週から米国のGoogle AI Ultraサブスクライバー向けにベータ提供開始予定だ。