OpenAI、First Proof提出物を公開 研究級数学問題10問すべてにproof attempt

Original: Our First Proof submissions View original →

Read in other languages: 한국어English
LLM Mar 16, 2026 By Insights AI 1 min read Source

OpenAIが公開したもの

OpenAIは2026年2月20日、First Proofの問題セットに対する自社modelのproof attemptを公開した。OpenAIによれば、First Proofはresearch-level mathematics problemで構成されており、いくつかの問題は原著者が解答に到達するまで何年もかかったという。OpenAIは2月14日にproof attemptを先に共有し、その後expert feedbackとcommunity analysisを受けて評価を更新した。

会社によると、内部のtheorem-proving modelは10問すべてに対して提出物を生成した。OpenAIは現在、problems 4, 5, 6, 9, 10の提出物については正しい可能性が高いと見ており、いくつかの他の提出物はまだreview中だとしている。一方で、当初は有望に見えたproblem 2の提出物については、公式解説や外部分析を踏まえて誤りの可能性が高いと述べた。

First Proofが示すもの

OpenAIは、通常のmath benchmarkでは研究級のreasoningを十分に測れないと主張している。同社の説明では、First Proofは長いreasoning chain、適切なabstractionの選択、曖昧さへの対応、そしてexpert scrutinyに耐える論証構造を要求する。短い問題を大量に解くbenchmarkとは性質がかなり異なるというわけだ。

この発表は、2025年7月にOpenAIがIMOでgold-medal level performanceを達成したと報告した流れの延長線上にある。当時OpenAIは、general-purpose reasoning modelがnatural-languageで書かれたIMO問題をformalizeし、proofまで進められる点を強調した。First Proofは、その先のより開いた研究環境で限界を測ろうとする試みといえる。

なぜ重要か

重要なのは単一のscoreではなく、frontier reasoning systemの評価方法が変わり始めていることだ。expertが真剣に検討するproof attemptを出すことは、短問に正解するのとは別の難しさがある。結果がまだ確定していない部分はあるものの、OpenAIの今回の更新は、theorem provingがAI reasoningの実力を測る主要な舞台になりつつあることを示している。

出典: OpenAI

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.