HNで注目されたEpoch FrontierMath確認、GPT-5.4 Proの数学性能を巡る議論が再燃
Original: Epoch confirms GPT5.4 Pro solved a frontier math open problem View original →
Epoch AIのFrontierMath更新は、2026年3月24日にHacker Newsで322 pointsと318 commentsを集め、大きな議論になった。元ページによれば、Kevin BarretoとLiam PriceがGPT-5.4 Proを使ってRamsey-style hypergraph問題の解法をまず引き出し、その議論が問題提供者のWill Brianによって確認され、今後publication向けに書き起こされる予定だという。
重要なのは、この「確認」が入っている点だ。対象はmarketing demo promptではなく、FrontierMath Open Problemsの組合せ論課題であり、特定のpartition propertyを持たないhypergraphをできるだけ大きく構成することが目的になる。Epochによれば、AI-assisted solutionは従来のlower-bound constructionにあった非効率を取り除き、upper-bound argumentの複雑さをある意味で写し取っている。Brianが結果を数学的に意味のあるものと評価した理由もそこにある。
- Epochは元のconversation transcriptとGPT-5.4 Proによる最終write-upへのリンクを公開している。
- 更新では、BarretoとPriceが将来の論文でcoauthorになる可能性にも触れている。
- さらに新しいevaluation scaffold完成後、Opus 4.6 (max)、Gemini 3.1 Pro、GPT-5.4 (xhigh)も同じ問題を解いたと記された。
この追加情報によって、HNの論点は「どのモデルが最初だったか」だけではなくなった。何をsolveと見なすのか、どれだけscaffoldingが効いているのか、benchmarkの進歩がexpert-verifiedな研究作業へ踏み込み始めているのかが中心になっている。単なるleaderboard数字より、問題提供者がproofの方向を認めたことの方が重い。
Insights読者にとっては、高難度数学benchmarkがscorekeepingから、transcript、expert review、publicationへつながるworkflow競争に移っているサインと読める。原典: Epoch AI。コミュニティ議論: Hacker News.
Related Articles
r/MachineLearningのReddit投稿が、breast MRI segmentationのage-related biasを扱うarXiv論文を注目させた。論文は、automated labelsがfairness評価を歪める『Biased Ruler』 effectを生みうること、そして younger患者の性能格差はbreast densityだけでは説明できないと示している。
Googleは2026年2月12日、Gemini 3 Deep Thinkの大規模アップグレードを発表した。Google AI Ultra加入者はGemini appで利用でき、researchers・engineers・enterprisesはGemini API early accessを申請できる。
GoogleはImperial College Londonと英国NHSとの共同研究で、従来screeningが見逃したinterval cancerの25%をAIが検出したと発表した。Nature Cancerの研究はworkload削減の可能性とともに、実臨床では信頼形成とcalibrationが重要であることも示している。
Comments (0)
No comments yet. Be the first to comment!