OpenAI、First Proof 10問のうち5件の証明が正しい可能性が高いと公表
Original: Our First Proof submissions View original →
通常の数学benchmarkより厳しいテスト
OpenAIは2026年2月20日、研究レベルの数学チャレンジFirst Proofの10問すべてについて、自社モデルの証明試行を公開した。First Proofは短答式の問題ではなく、各分野の問題に対してcheckable proofを最後まで構築できるかを問う課題である。専門家が行単位で点検できる完全な議論が必要になるため、一般的なshort-answer benchmarkよりも、はるかに厳しい長時間 reasoningの検証になる。
OpenAIによれば、内部モデルを10問すべてに走らせた結果、専門家のフィードバックに基づいて問題4、5、6、9、10の少なくとも5件は正しい可能性が高いという。一方で修正も公表した。当初は問題2の試行も正しい可能性が高いと見ていたが、公式 commentary と追加の community analysis を踏まえ、現在は誤りだと考えているとしている。
OpenAIが見ている評価軸
この投稿の主張は、frontier研究課題こそが通常のbenchmarkでは見えにくい能力を露出させるという点にある。OpenAIは、First Proofが長い推論連鎖の維持、適切な抽象化の選択、曖昧な問題文への対応、そして専門家の精査に耐える議論生成を同時に試すと説明した。これは限られた選択肢から正答を選ぶ形式とは本質的に違う。
OpenAIのJames R. Leeは、今回の取り組みを「thinkingのrigorを高めること」に重点を置いた新モデル訓練の途中経過として紹介した。投稿によれば、モデルは最初に問題9と10を解き、その後の訓練で少なくともさらに3問を解ける段階まで向上したという。OpenAIは特に問題6と4を強調し、数日のうちにモデルが目に見えて賢くなる様子を確認したと述べている。
完全にクリーンな評価ではないが、意味は大きい
OpenAIは、今回の作業が厳密に統制された評価ではなかったことも明示した。限定的なhuman supervision、うまくいきそうな方針への再試行提案、専門家フィードバック後の説明補強、さらに検証・整形・文体調整のためのChatGPT利用があったという。いくつかの問題では、複数回の試行から人間が最良のものを選んだ。
その留保は重要だが、結果の価値を打ち消すものではない。むしろOpenAIは、research-grade reasoningを、正しさの確認自体が難しく、失敗の仕方にも情報価値がある環境で評価すべきだと主張している。これはleaderboard最適化から離れ、将来のモデルをより現実的に測ろうとする方向転換として読むことができる。
なぜ重要か
OpenAIはこの発表を、2025年7月のInternational Mathematical Olympiadでのgold medal-level performanceや、その後の数学・物理・科学分野での協働実験とも結び付けている。要するに同社は、今後の公開評価がbenchmark scoreではなく、専門家を納得させる推論と証明の質へ近づくことを狙っている。
出典: OpenAI公式研究記事。
Related Articles
OpenAIはChain-of-Thought controllabilityに関する新しいevaluation suiteとresearch paperを公開した。GPT-5.4 Thinkingはreasoningを隠す能力が低く、CoT monitoringが引き続き有効な safety signalになり得ると同社は説明している。
OpenAIはFirst Proof数学チャレンジに提出したモデル生成の証明案5件を公開した。採択された証明はなかったが、最先端LLMの推論限界を検証できる一次資料として重要性が高い。
GitHubは2026年3月5日、GPT-5.4がGitHub Copilotで一般提供となり、順次展開中だと発表した。初期テストでは成功率の向上に加え、複雑でツール依存の作業における論理推論と実行力の改善を確認したとしている。
Comments (0)
No comments yet. Be the first to comment!