OpenAI, First Proof 제출물 공개... 연구급 수학 문제 10개 전부에 proof attempt 제시

OpenAI가 공개한 내용

OpenAI는 2026년 2월 20일 First Proof 문제 세트에 대한 자사 모델의 proof attempt를 정리해 공개했다. 회사 설명에 따르면 First Proof는 research-level mathematics 문제로 구성돼 있으며, 일부 문제는 원저자들이 해답을 찾는 데 수년이 걸렸다고 한다. OpenAI는 2월 14일 proof attempt를 먼저 공유했고, 이후 expert feedback과 community analysis를 반영해 현재 평가를 업데이트했다.

회사는 내부 theorem-proving model이 10개 문제 전부에 대해 시도를 생성했다고 밝혔다. 그중 problems 4, 5, 6, 9, 10에 대한 제출물은 정답일 가능성이 높다고 판단하고 있으며, 몇몇 다른 시도는 아직 검토 중이라고 설명했다. 반면 처음에는 유망해 보였던 problem 2 제출물은 이후 공식 해설과 커뮤니티 분석을 반영한 결과 잘못된 것으로 보인다고 밝혔다.

왜 이 benchmark가 다른가

OpenAI는 기존 수학 benchmark만으로는 실제 연구형 추론 능력을 충분히 측정하기 어렵다고 본다. 회사는 First Proof가 긴 reasoning chain, 적절한 abstraction 선택, 애매한 문제 해석, 그리고 expert scrutiny를 버틸 수 있는 논증 구조를 요구한다는 점을 강조했다. 즉, 단답형 benchmark가 아니라 수학 연구 과정에 더 가까운 형태의 평가라는 설명이다.

이번 발표는 OpenAI가 2025년 7월 IMO에서 gold-medal 수준 성과를 냈다고 밝힌 이후의 연장선에 있다. 당시 회사는 natural language로 주어진 IMO 문제를 formalize하고 proof까지 이어가는 능력을 강조했다. First Proof는 그보다 더 열린 연구 환경에서 모델의 실제 problem-solving 한계를 시험하려는 다음 단계로 볼 수 있다.

왜 중요한가

이 발표의 의미는 단순 점수 경쟁보다 AI reasoning 평가 방식이 바뀌고 있다는 데 있다. 짧은 benchmark 문제를 많이 맞히는 것과, 연구자가 검토할 수 있는 수준의 proof attempt를 쓰는 것은 전혀 다른 과제다. 아직 모든 제출물이 확정된 것은 아니지만, OpenAI의 업데이트는 frontier reasoning model이 theorem proving 같은 고난도 domain으로 실제 진입하고 있음을 보여준다.

출처: OpenAI

OpenAI, First Proof 제출물 공개... 연구급 수학 문제 10개 전부에 proof attempt 제시

OpenAI가 공개한 내용

왜 이 benchmark가 다른가

왜 중요한가

Related Articles

GPT-5.5 API 공개에 HN 들썩, 성능보다 먼저 나온 가격·태도 논쟁

GPT-5.5, 에이전트 코딩 점프... GPT-5.4급 지연 유지

OpenAI, Symphony 공개… 일부 팀 PR 처리량 500% 키운 Codex 운영 방식

Comments (0)

Leave a Comment

Related Articles

GPT-5.5 API 공개에 HN 들썩, 성능보다 먼저 나온 가격·태도 논쟁

GPT-5.5, 에이전트 코딩 점프... GPT-5.4급 지연 유지
LLM Apr 25, 2026 1 min read

OpenAI, Symphony 공개… 일부 팀 PR 처리량 500% 키운 Codex 운영 방식