OpenAI, First Proof 제출물 공개... 연구급 수학 문제 10개 전부에 proof attempt 제시
Original: Our First Proof submissions View original →
OpenAI가 공개한 내용
OpenAI는 2026년 2월 20일 First Proof 문제 세트에 대한 자사 모델의 proof attempt를 정리해 공개했다. 회사 설명에 따르면 First Proof는 research-level mathematics 문제로 구성돼 있으며, 일부 문제는 원저자들이 해답을 찾는 데 수년이 걸렸다고 한다. OpenAI는 2월 14일 proof attempt를 먼저 공유했고, 이후 expert feedback과 community analysis를 반영해 현재 평가를 업데이트했다.
회사는 내부 theorem-proving model이 10개 문제 전부에 대해 시도를 생성했다고 밝혔다. 그중 problems 4, 5, 6, 9, 10에 대한 제출물은 정답일 가능성이 높다고 판단하고 있으며, 몇몇 다른 시도는 아직 검토 중이라고 설명했다. 반면 처음에는 유망해 보였던 problem 2 제출물은 이후 공식 해설과 커뮤니티 분석을 반영한 결과 잘못된 것으로 보인다고 밝혔다.
왜 이 benchmark가 다른가
OpenAI는 기존 수학 benchmark만으로는 실제 연구형 추론 능력을 충분히 측정하기 어렵다고 본다. 회사는 First Proof가 긴 reasoning chain, 적절한 abstraction 선택, 애매한 문제 해석, 그리고 expert scrutiny를 버틸 수 있는 논증 구조를 요구한다는 점을 강조했다. 즉, 단답형 benchmark가 아니라 수학 연구 과정에 더 가까운 형태의 평가라는 설명이다.
이번 발표는 OpenAI가 2025년 7월 IMO에서 gold-medal 수준 성과를 냈다고 밝힌 이후의 연장선에 있다. 당시 회사는 natural language로 주어진 IMO 문제를 formalize하고 proof까지 이어가는 능력을 강조했다. First Proof는 그보다 더 열린 연구 환경에서 모델의 실제 problem-solving 한계를 시험하려는 다음 단계로 볼 수 있다.
왜 중요한가
이 발표의 의미는 단순 점수 경쟁보다 AI reasoning 평가 방식이 바뀌고 있다는 데 있다. 짧은 benchmark 문제를 많이 맞히는 것과, 연구자가 검토할 수 있는 수준의 proof attempt를 쓰는 것은 전혀 다른 과제다. 아직 모든 제출물이 확정된 것은 아니지만, OpenAI의 업데이트는 frontier reasoning model이 theorem proving 같은 고난도 domain으로 실제 진입하고 있음을 보여준다.
출처: OpenAI
Related Articles
OpenAI는 First Proof 10문제 전체에 대한 증명 시도를 공개하고, 전문가 피드백 기준으로 최소 5개가 맞을 가능성이 높다고 밝혔다. 회사는 이를 일반 benchmark를 넘어서는 장기 추론 평가라고 설명했다.
OpenAI는 2026년 3월 5일 X에서 GPT-5.4 Thinking의 Chain-of-Thought controllability가 낮다고 밝혔다. 이는 현재 기준으로 CoT monitoring이 여전히 유효한 안전 장치일 수 있다는 메시지와 함께 공개됐다.
OpenAI는 2026년 3월 5일 GPT-5.4를 ChatGPT, API, Codex에 순차 배포한다고 발표했다. GPT-5.4는 GPT-5.3-Codex의 coding 역량을 본류 reasoning 모델에 통합하고, native computer use와 Codex의 experimental 1M context 지원을 내세운다.
Comments (0)
No comments yet. Be the first to comment!