OpenAI, First Proof 10문제 중 5개 증명이 맞을 가능성이 높다고 공개
Original: Our First Proof submissions View original →
일반 수학 benchmark보다 훨씬 어려운 시험대
OpenAI는 2026년 2월 20일 연구 수준 수학 챌린지인 First Proof의 10개 문제 전체에 대한 자사 증명 시도를 공개했다. First Proof는 단순 정답 선택이 아니라, 각 분야 문제에 대해 checkable proof를 끝까지 작성할 수 있는지를 보는 과제다. 즉 전문가가 줄 단위로 검토할 수 있는 완성된 논증이 필요하므로, 일반 short-answer benchmark보다 훨씬 엄격한 장기 추론 시험에 가깝다.
OpenAI는 내부 모델을 10개 문제 전체에 적용했고, 전문가 피드백 기준으로 문제 4, 5, 6, 9, 10의 시도는 최소 5개가 맞을 가능성이 높다고 밝혔다. 동시에 회사는 수정 사항도 공개했다. 처음에는 문제 2의 시도가 유력하다고 봤지만, 공식 해설과 추가 커뮤니티 분석을 검토한 뒤 현재는 틀렸다고 판단한다고 설명했다.
OpenAI가 이번 실험에서 본 것
게시글의 핵심 주장은 명확하다. 이런 frontier 연구 과제는 일반 benchmark가 놓치기 쉬운 능력을 드러낸다는 것이다. OpenAI는 First Proof가 긴 추론 사슬 유지, 적절한 추상화 선택, 애매한 문제 서술 처리, 그리고 전문가 검토를 견디는 논증 생성 능력을 동시에 본다고 설명했다. 이는 좁은 답안 공간에서 점수를 내는 시험과는 성격이 다르다.
OpenAI의 James R. Lee는 이번 실험을, 사고의 rigor를 높이는 데 초점을 둔 새 모델 훈련 과정의 중간 신호로 설명했다. 게시글에 따르면 모델은 처음에 문제 9와 10을 풀었고, 이후 훈련이 진행되면서 최소 3개 문제를 더 해결할 수 있는 수준으로 향상됐다. OpenAI는 특히 문제 6과 4를 강조하며, 며칠 단위로 능력이 눈에 띄게 올라가는 장면을 확인했다고 적었다.
깨끗한 benchmark는 아니지만 중요한 신호
OpenAI는 이번 결과가 완전히 통제된 평가가 아니었다는 점도 분명히 했다. 회사는 제한된 human supervision, 유망한 전략에 대한 재시도 제안, 전문가 피드백 이후의 설명 보강, 그리고 검증·포맷·스타일 정리를 위한 ChatGPT 활용이 있었다고 적었다. 일부 문제는 몇 차례 시도 중 사람이 가장 나은 답안을 선택했다.
이 단서는 중요하지만 결과의 의미를 없애지는 않는다. 오히려 OpenAI는 research-grade reasoning을, 정답 확인이 어렵고 실패 양상 자체가 정보를 주는 환경에서 평가해야 한다고 주장하고 있다. 이는 단순 leaderboard 경쟁에서 벗어나 미래 모델을 더 현실적으로 시험하려는 방향 전환으로 읽힌다.
왜 중요한가
OpenAI는 이번 발표를 2025년 7월 International Mathematical Olympiad에서 기록한 gold medal-level 성과, 그리고 이후 수학·물리·과학 협업 사례와 연결했다. 실무적 함의는 분명하다. 회사는 앞으로 모델 평가가 benchmark 점수보다, 전문가를 설득할 수 있는 추론과 증명의 질에 더 가까워지길 원하고 있다.
출처: OpenAI 공식 연구 게시물.
Related Articles
OpenAI는 Chain-of-Thought controllability를 다루는 새로운 evaluation suite와 research paper를 공개했다. 회사는 GPT-5.4 Thinking이 reasoning을 숨기는 능력이 낮아 CoT monitoring이 여전히 유효한 safety signal이 될 수 있다고 설명했다.
OpenAI가 First Proof 챌린지에 제출한 모델 생성 증명 5건을 공개했다. 총 7개 문제 중 정답으로 판정된 제출은 없었지만, 연구 커뮤니티가 실패 사례와 추론 과정을 분석할 수 있도록 원문 제출물을 그대로 공유했다.
OpenAI가 GPT-5.2를 발표하며 400K 토큰 컨텍스트 윈도우와 AIME 2025 수학 벤치마크 100% 달성을 선보였다. GPT-5.2 Thinking 버전은 GDPval 벤치마크에서 전문가 대비 70.9% 승률을 기록했다.
Comments (0)
No comments yet. Be the first to comment!