OpenAI、First Proof提出物を公開 研究級数学問題10問すべてにproof attempt
Original: Our First Proof submissions View original →
OpenAIが公開したもの
OpenAIは2026年2月20日、First Proofの問題セットに対する自社modelのproof attemptを公開した。OpenAIによれば、First Proofはresearch-level mathematics problemで構成されており、いくつかの問題は原著者が解答に到達するまで何年もかかったという。OpenAIは2月14日にproof attemptを先に共有し、その後expert feedbackとcommunity analysisを受けて評価を更新した。
会社によると、内部のtheorem-proving modelは10問すべてに対して提出物を生成した。OpenAIは現在、problems 4, 5, 6, 9, 10の提出物については正しい可能性が高いと見ており、いくつかの他の提出物はまだreview中だとしている。一方で、当初は有望に見えたproblem 2の提出物については、公式解説や外部分析を踏まえて誤りの可能性が高いと述べた。
First Proofが示すもの
OpenAIは、通常のmath benchmarkでは研究級のreasoningを十分に測れないと主張している。同社の説明では、First Proofは長いreasoning chain、適切なabstractionの選択、曖昧さへの対応、そしてexpert scrutinyに耐える論証構造を要求する。短い問題を大量に解くbenchmarkとは性質がかなり異なるというわけだ。
この発表は、2025年7月にOpenAIがIMOでgold-medal level performanceを達成したと報告した流れの延長線上にある。当時OpenAIは、general-purpose reasoning modelがnatural-languageで書かれたIMO問題をformalizeし、proofまで進められる点を強調した。First Proofは、その先のより開いた研究環境で限界を測ろうとする試みといえる。
なぜ重要か
重要なのは単一のscoreではなく、frontier reasoning systemの評価方法が変わり始めていることだ。expertが真剣に検討するproof attemptを出すことは、短問に正解するのとは別の難しさがある。結果がまだ確定していない部分はあるものの、OpenAIの今回の更新は、theorem provingがAI reasoningの実力を測る主要な舞台になりつつあることを示している。
出典: OpenAI
Related Articles
HNはGPT-5.5を祝賀ムードより先に検算モードで迎えた。最初に問われたのは、どれだけ賢いかより、価格とコンテキスト帯、そしてコーディング時の振る舞いが本当に改善したのかだった。
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20%高くなったと述べた。
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。
Comments (0)
No comments yet. Be the first to comment!