OpenAI、First Proof 10問のうち5件の証明が正しい可能性が高いと公表

通常の数学benchmarkより厳しいテスト

OpenAIは2026年2月20日、研究レベルの数学チャレンジFirst Proofの10問すべてについて、自社モデルの証明試行を公開した。First Proofは短答式の問題ではなく、各分野の問題に対してcheckable proofを最後まで構築できるかを問う課題である。専門家が行単位で点検できる完全な議論が必要になるため、一般的なshort-answer benchmarkよりも、はるかに厳しい長時間 reasoningの検証になる。

OpenAIによれば、内部モデルを10問すべてに走らせた結果、専門家のフィードバックに基づいて問題4、5、6、9、10の少なくとも5件は正しい可能性が高いという。一方で修正も公表した。当初は問題2の試行も正しい可能性が高いと見ていたが、公式 commentary と追加の community analysis を踏まえ、現在は誤りだと考えているとしている。

OpenAIが見ている評価軸

この投稿の主張は、frontier研究課題こそが通常のbenchmarkでは見えにくい能力を露出させるという点にある。OpenAIは、First Proofが長い推論連鎖の維持、適切な抽象化の選択、曖昧な問題文への対応、そして専門家の精査に耐える議論生成を同時に試すと説明した。これは限られた選択肢から正答を選ぶ形式とは本質的に違う。

OpenAIのJames R. Leeは、今回の取り組みを「thinkingのrigorを高めること」に重点を置いた新モデル訓練の途中経過として紹介した。投稿によれば、モデルは最初に問題9と10を解き、その後の訓練で少なくともさらに3問を解ける段階まで向上したという。OpenAIは特に問題6と4を強調し、数日のうちにモデルが目に見えて賢くなる様子を確認したと述べている。

完全にクリーンな評価ではないが、意味は大きい

OpenAIは、今回の作業が厳密に統制された評価ではなかったことも明示した。限定的なhuman supervision、うまくいきそうな方針への再試行提案、専門家フィードバック後の説明補強、さらに検証・整形・文体調整のためのChatGPT利用があったという。いくつかの問題では、複数回の試行から人間が最良のものを選んだ。

その留保は重要だが、結果の価値を打ち消すものではない。むしろOpenAIは、research-grade reasoningを、正しさの確認自体が難しく、失敗の仕方にも情報価値がある環境で評価すべきだと主張している。これはleaderboard最適化から離れ、将来のモデルをより現実的に測ろうとする方向転換として読むことができる。

なぜ重要か

OpenAIはこの発表を、2025年7月のInternational Mathematical Olympiadでのgold medal-level performanceや、その後の数学・物理・科学分野での協働実験とも結び付けている。要するに同社は、今後の公開評価がbenchmark scoreではなく、専門家を納得させる推論と証明の質へ近づくことを狙っている。

出典: OpenAI公式研究記事。

OpenAI、First Proof 10問のうち5件の証明が正しい可能性が高いと公表

通常の数学benchmarkより厳しいテスト

OpenAIが見ている評価軸

完全にクリーンな評価ではないが、意味は大きい

なぜ重要か

Related Articles

OpenAI、新たな安全研究でGPT-5.4 ThinkingのChain-of-Thought controllabilityの低さを報告

OpenAI、First Proofへの提出内容を公開

GitHub、VS CodeとCopilot CLI向けにGPT-5.4の展開を開始

Comments (0)

Leave a Comment