OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAIが公開したもの

OpenAIは2026年2月20日、First Proofの問題セットに対する自社modelのproof attemptを公開した。OpenAIによれば、First Proofはresearch-level mathematics problemで構成されており、いくつかの問題は原著者が解答に到達するまで何年もかかったという。OpenAIは2月14日にproof attemptを先に共有し、その後expert feedbackとcommunity analysisを受けて評価を更新した。

会社によると、内部のtheorem-proving modelは10問すべてに対して提出物を生成した。OpenAIは現在、problems 4, 5, 6, 9, 10の提出物については正しい可能性が高いと見ており、いくつかの他の提出物はまだreview中だとしている。一方で、当初は有望に見えたproblem 2の提出物については、公式解説や外部分析を踏まえて誤りの可能性が高いと述べた。

First Proofが示すもの

OpenAIは、通常のmath benchmarkでは研究級のreasoningを十分に測れないと主張している。同社の説明では、First Proofは長いreasoning chain、適切なabstractionの選択、曖昧さへの対応、そしてexpert scrutinyに耐える論証構造を要求する。短い問題を大量に解くbenchmarkとは性質がかなり異なるというわけだ。

この発表は、2025年7月にOpenAIがIMOでgold-medal level performanceを達成したと報告した流れの延長線上にある。当時OpenAIは、general-purpose reasoning modelがnatural-languageで書かれたIMO問題をformalizeし、proofまで進められる点を強調した。First Proofは、その先のより開いた研究環境で限界を測ろうとする試みといえる。

なぜ重要か

重要なのは単一のscoreではなく、frontier reasoning systemの評価方法が変わり始めていることだ。expertが真剣に検討するproof attemptを出すことは、短問に正解するのとは別の難しさがある。結果がまだ確定していない部分はあるものの、OpenAIの今回の更新は、theorem provingがAI reasoningの実力を測る主要な舞台になりつつあることを示している。

出典: OpenAI

OpenAI、First Proof提出物を公開研究級数学問題10問すべてにproof attempt

OpenAIが公開したもの

First Proofが示すもの

なぜ重要か

Related Articles

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

Comments (0)

Leave a Comment

Related Articles

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ
重要なのは、GPT-5.5 launch直後に出た最初期のexternal benchmark readoutのひとつだという点だ。Artificial AnalysisはIntelligence Indexで3点差首位とした一方、指数実行コストは約20％高くなったと述べた。

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進
OpenAIが狙っているのは会話品質の小幅改善ではなく、長時間タスクの自動化だ。公開値ではGPT-5.5がTerminal-Bench 2.0で82.7%に達し、GPT-5.4を7.6ポイント上回り、Codexではより少ないトークンで動くとされる。

OpenAIが公開したもの

First Proofが示すもの

なぜ重要か

Related Articles

GPT-5.5 API公開でHNが先に見たもの、性能より価格と挙動

GPT-5.5、Artificial Analysisで3点差首位に復帰 実行コストは20％上振れへ

GPT-5.5始動、Terminal-Bench 82.7%でCodexの長時間作業が前進

Comments (0)

Leave a Comment

GPT-5.5、Artificial Analysisで3点差首位に復帰　実行コストは20％上振れへ