Redditで注目: Gemini 3 Deep Think更新、科学・工学向け指標を公開

Redditで拡散した公式アップデート

r/singularityの投稿は、GoogleによるGemini 3 Deep Thinkの更新発表を迅速に共有した。取得時点で投稿はscore 675、comments 51。一次情報はGoogle公式ブログ Gemini 3 Deep Think で、科学・研究・工学の難問に対応するspecialized reasoning modeの強化を中心に説明している。

公開された主要ベンチマーク

公式発表で示された主な数値は、Humanity’s Last Examで48.4%(without tools)、ARC-AGI-2で84.6%(ARC Prize Foundationによる検証表記)、CodeforcesでElo 3455。さらにInternational Math Olympiad 2025でgold-medal level performanceとされる。数学・競技プログラミングに加えて、2025年のPhysics Olympiad/Chemistry Olympiadのwritten sectionやCMT-Benchmark 50.5%など、科学領域での指標も示された。

利用可能範囲と実運用への示唆

Googleの説明では、更新版Deep ThinkはGoogle AI Ultra加入者向けにGeminiアプリで提供開始。同時に、研究者・エンジニア・企業向けにGemini APIのearly access申請も開始された。事例として、Rutgersでの高難度数学論文の論理的欠陥検出、Duke University Wang Labでの半導体材料探索に向けた薄膜成長レシピ設計(100 μm超)が紹介されている。

コミュニティが注目した理由

この投稿が伸びた背景には、ベンチマーク成績の提示とAPI提供計画が同時に示された点がある。評価から導入までの距離が短くなり、研究ツールチェーンへの接続可能性が具体化したためだ。実務では、単一スコアよりもドメイン別の再現テスト、失敗ケース分析、既存ツールとの接続品質が成否を左右する。とはいえ今回の更新は、reasoning modelが実験的機能から運用基盤へ近づいている流れを示す重要なシグナルと言える。

Redditで注目: Gemini 3 Deep Think更新、科学・工学向け指標を公開

Redditで拡散した公式アップデート

公開された主要ベンチマーク

利用可能範囲と実運用への示唆

コミュニティが注目した理由

Related Articles

Gemini Flash、低コストagent向けに3モデルへ分岐

Gemini 3.6 Flash、agent運用コストを前面に出した更新

Claude Opus 5、Fable級のcoding性能を半額圏に寄せる日常高性能モデルとroutingの狙い