HN에서 주목한 Epoch FrontierMath 검증, GPT-5.4 Pro 수학 성능 논쟁을 다시 흔들다
Original: Epoch confirms GPT5.4 Pro solved a frontier math open problem View original →
Epoch AI의 FrontierMath 업데이트는 2026년 3월 24일 Hacker News에서 322 points와 318 comments를 끌어내며 큰 논쟁거리가 됐다. 원문 페이지에 따르면 Kevin Barreto와 Liam Price가 GPT-5.4 Pro를 사용해 Ramsey-style hypergraph 문제의 해법을 먼저 끌어냈고, 문제 기여자인 Will Brian이 그 논증이 성립한다고 확인했으며 논문 형태로 정리될 예정이라고 한다.
핵심은 바로 이 “확인” 절차다. 이 문제는 단순한 marketing demo prompt가 아니라 FrontierMath Open Problems에 포함된 combinatorics 과제다. 목표는 특정 partition property를 갖지 않는 hypergraph를 최대한 크게 구성하는 것이다. Epoch는 AI-assisted solution이 기존 lower-bound construction의 비효율 하나를 제거했고 upper-bound argument의 일부를 비추듯 닮아 있다고 설명한다. 그래서 Brian도 결과를 흥미롭고 수학적으로 의미 있다고 평가했다.
- Epoch는 원래 대화 transcript와 GPT-5.4 Pro의 최종 write-up 링크를 함께 공개했다.
- 업데이트에 따르면 Barreto와 Price는 후속 논문의 coauthor가 될 가능성도 있다.
- Epoch가 새로운 evaluation scaffold를 완성한 뒤에는 Opus 4.6 (max), Gemini 3.1 Pro, GPT-5.4 (xhigh)도 같은 문제를 풀었다고 적었다.
이 추가 정보 덕분에 HN 토론은 “누가 먼저 풀었나”를 넘어서게 됐다. 무엇을 solve로 볼 것인지, scaffolding이 얼마나 중요한지, benchmark 진전이 expert가 검증 가능한 연구 작업으로 넘어가고 있는지 같은 질문이 중심으로 올라왔다. 단순 leaderboard 숫자보다 기여자가 proof 방향을 확인했다는 점이 훨씬 중요하게 읽힌다.
Insights 관점에서 보면, 고난도 수학 benchmark가 점수 경쟁에서 transcript, expert review, publication으로 이어지는 workflow 경쟁으로 이동하고 있다는 신호다. 원문: Epoch AI. 커뮤니티 토론: Hacker News.
Related Articles
r/singularity는 “AI가 또 문제를 맞혔다”보다 “이번엔 진짜 새 수가 나온 건가”에 더 꽂혔다. Scientific American이 전한 23세 Liam Price와 GPT-5.4 Pro의 60년 묵은 Erdos 문제 풀이가, novelty와 전문가 정리 작업, 수학자 역할을 둘러싼 토론으로 번졌다.
HN은 이번 수학 이야기를 "AI가 또 해냈다"보다 사람이 못 본 길을 찍어준 사건으로 봤다. 거친 GPT-5.4 Pro 초안을 수학자들이 추려내고 다듬는 과정 자체가 더 큰 화제가 됐다.
구글 딥마인드가 제미나이 기반 멀티 에이전트 시스템 'AI 수학 공동 연구자'를 공개해 FrontierMath Tier 4에서 모든 AI 중 최고인 48%를 기록했다. AlphaEvolve는 11~20년간 유지된 램지 수(Ramsey number) 5개의 하한선 갱신에 성공했다.