HNで注目されたEpoch FrontierMath確認、GPT-5.4 Proの数学性能を巡る議論が再燃

Epoch AIのFrontierMath更新は、2026年3月24日にHacker Newsで322 pointsと318 commentsを集め、大きな議論になった。元ページによれば、Kevin BarretoとLiam PriceがGPT-5.4 Proを使ってRamsey-style hypergraph問題の解法をまず引き出し、その議論が問題提供者のWill Brianによって確認され、今後publication向けに書き起こされる予定だという。

重要なのは、この「確認」が入っている点だ。対象はmarketing demo promptではなく、FrontierMath Open Problemsの組合せ論課題であり、特定のpartition propertyを持たないhypergraphをできるだけ大きく構成することが目的になる。Epochによれば、AI-assisted solutionは従来のlower-bound constructionにあった非効率を取り除き、upper-bound argumentの複雑さをある意味で写し取っている。Brianが結果を数学的に意味のあるものと評価した理由もそこにある。

Epochは元のconversation transcriptとGPT-5.4 Proによる最終write-upへのリンクを公開している。
更新では、BarretoとPriceが将来の論文でcoauthorになる可能性にも触れている。
さらに新しいevaluation scaffold完成後、Opus 4.6 (max)、Gemini 3.1 Pro、GPT-5.4 (xhigh)も同じ問題を解いたと記された。

この追加情報によって、HNの論点は「どのモデルが最初だったか」だけではなくなった。何をsolveと見なすのか、どれだけscaffoldingが効いているのか、benchmarkの進歩がexpert-verifiedな研究作業へ踏み込み始めているのかが中心になっている。単なるleaderboard数字より、問題提供者がproofの方向を認めたことの方が重い。

Insights読者にとっては、高難度数学benchmarkがscorekeepingから、transcript、expert review、publicationへつながるworkflow競争に移っているサインと読める。原典: Epoch AI。コミュニティ議論: Hacker News.

HNで注目されたEpoch FrontierMath確認、GPT-5.4 Proの数学性能を巡る議論が再燃

Related Articles

60年物のエルデシュ問題、r/singularityが見たのは「暗記でなく新しい接続か」

ChatGPTで60年越しのエルデシュ問題、HNが沸いたのは「解けた」より手筋

Google DeepMindのAI数学共同研究者、数十年来未更新のラムゼー数5問を更新

Related Articles

60年物のエルデシュ問題、r/singularityが見たのは「暗記でなく新しい接続か」
Sciences Reddit Apr 29, 2026 1 min read

ChatGPTで60年越しのエルデシュ問題、HNが沸いたのは「解けた」より手筋
Sciences Hacker News Apr 28, 2026 1 min read

Google DeepMindのAI数学共同研究者、数十年来未更新のラムゼー数5問を更新
Sciences May 16, 2026 1 min read