OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAIが公開したもの

OpenAIは2026年2月20日、First Proofの問題セットに対する自社modelのproof attemptを公開した。OpenAIによれば、First Proofはresearch-level mathematics problemで構成されており、いくつかの問題は原著者が解答に到達するまで何年もかかったという。OpenAIは2月14日にproof attemptを先に共有し、その後expert feedbackとcommunity analysisを受けて評価を更新した。

会社によると、内部のtheorem-proving modelは10問すべてに対して提出物を生成した。OpenAIは現在、problems 4, 5, 6, 9, 10の提出物については正しい可能性が高いと見ており、いくつかの他の提出物はまだreview中だとしている。一方で、当初は有望に見えたproblem 2の提出物については、公式解説や外部分析を踏まえて誤りの可能性が高いと述べた。

First Proofが示すもの

OpenAIは、通常のmath benchmarkでは研究級のreasoningを十分に測れないと主張している。同社の説明では、First Proofは長いreasoning chain、適切なabstractionの選択、曖昧さへの対応、そしてexpert scrutinyに耐える論証構造を要求する。短い問題を大量に解くbenchmarkとは性質がかなり異なるというわけだ。

この発表は、2025年7月にOpenAIがIMOでgold-medal level performanceを達成したと報告した流れの延長線上にある。当時OpenAIは、general-purpose reasoning modelがnatural-languageで書かれたIMO問題をformalizeし、proofまで進められる点を強調した。First Proofは、その先のより開いた研究環境で限界を測ろうとする試みといえる。

なぜ重要か

重要なのは単一のscoreではなく、frontier reasoning systemの評価方法が変わり始めていることだ。expertが真剣に検討するproof attemptを出すことは、短問に正解するのとは別の難しさがある。結果がまだ確定していない部分はあるものの、OpenAIの今回の更新は、theorem provingがAI reasoningの実力を測る主要な舞台になりつつあることを示している。

出典: OpenAI

OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAIが公開したもの

First Proofが示すもの

なぜ重要か

Related Articles

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料

SWE-bench Verified失速、HNが見た本質は順位より汚染

Comments (0)

Leave a Comment

Related Articles

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

Cursor、GPT-5.5をCursorBench 72.8%首位へ 5月2日まで半額、その判断材料
なぜ重要か。最先端のコーディングモデルでは公開ベンチマークだけでは体感差が見えにくくなっているからだ。CursorはGPT-5.5が自社評価のCursorBenchで72.8%の首位に立ち、5月2日まで価格を50%下げると書いた。

SWE-bench Verified失速、HNが見た本質は順位より汚染