OpenAI、First Proof提出物を公開 研究級数学問題10問すべてにproof attempt
Original: Our First Proof submissions View original →
OpenAIが公開したもの
OpenAIは2026年2月20日、First Proofの問題セットに対する自社modelのproof attemptを公開した。OpenAIによれば、First Proofはresearch-level mathematics problemで構成されており、いくつかの問題は原著者が解答に到達するまで何年もかかったという。OpenAIは2月14日にproof attemptを先に共有し、その後expert feedbackとcommunity analysisを受けて評価を更新した。
会社によると、内部のtheorem-proving modelは10問すべてに対して提出物を生成した。OpenAIは現在、problems 4, 5, 6, 9, 10の提出物については正しい可能性が高いと見ており、いくつかの他の提出物はまだreview中だとしている。一方で、当初は有望に見えたproblem 2の提出物については、公式解説や外部分析を踏まえて誤りの可能性が高いと述べた。
First Proofが示すもの
OpenAIは、通常のmath benchmarkでは研究級のreasoningを十分に測れないと主張している。同社の説明では、First Proofは長いreasoning chain、適切なabstractionの選択、曖昧さへの対応、そしてexpert scrutinyに耐える論証構造を要求する。短い問題を大量に解くbenchmarkとは性質がかなり異なるというわけだ。
この発表は、2025年7月にOpenAIがIMOでgold-medal level performanceを達成したと報告した流れの延長線上にある。当時OpenAIは、general-purpose reasoning modelがnatural-languageで書かれたIMO問題をformalizeし、proofまで進められる点を強調した。First Proofは、その先のより開いた研究環境で限界を測ろうとする試みといえる。
なぜ重要か
重要なのは単一のscoreではなく、frontier reasoning systemの評価方法が変わり始めていることだ。expertが真剣に検討するproof attemptを出すことは、短問に正解するのとは別の難しさがある。結果がまだ確定していない部分はあるものの、OpenAIの今回の更新は、theorem provingがAI reasoningの実力を測る主要な舞台になりつつあることを示している。
出典: OpenAI
Related Articles
OpenAIはFirst Proofの10問すべてに対する証明試行を公開し、専門家のフィードバックに基づいて少なくとも5件が正しい可能性が高いと述べた。通常のbenchmarkを超える長時間 reasoning評価として位置づけている。
OpenAIは2026年3月5日のX投稿で、GPT-5.4 Thinking の Chain-of-Thought controllability が低いと説明した。新しい open-source 評価と論文は、CoT monitoring が当面有効な safety signal であり続ける可能性を示している。
OpenAIは2026年3月5日、GPT-5.4をChatGPT、API、Codexで順次提供すると発表した。GPT-5.3-Codexのcoding能力を本流のreasoning modelに統合し、native computer useとCodexでのexperimental 1M context supportを打ち出している。
Comments (0)
No comments yet. Be the first to comment!