OpenAI, 160+ 정치학 저널·100만+ synthetic eval로 사회과학 재현연구 우선순위화

OpenAI는 2026년 2월 13일(미국 시간) 공개한 연구에서, language model을 이용해 사회과학 재현연구(reproducibility research)의 우선순위를 정하는 파이프라인을 제시했다. 핵심은 실제 실험을 먼저 전부 재수행하기보다, "어떤 연구를 먼저 검증해야 의미가 큰가"를 정량적으로 좁히는 것이다.

공개 내용에 따르면 연구팀은 160개 이상 정치학 저널의 논문을 대상으로 100만 건이 넘는 synthetic evaluation을 수행했다. 모델은 각 논문의 제목과 초록만 보고, 사람이 모은 실제 샘플에서 어떤 결과가 나올지를 예측한다. 이후 모델 예측과 기존 결과 간 차이를 분석해, 표본·맥락 변화에 민감할 가능성이 큰 연구를 후보군으로 올린다.

OpenAI는 이 불일치(disagreement)가 단순 오차 신호가 아니라 "재현 가치가 높은 주제"를 찾는 신호로 작동할 수 있다고 설명한다. 즉, 모델이 기존 결과와 다르게 예측하는 사례를 중심으로 후속 실험을 설계하면, 제한된 연구비와 시간을 보다 효율적으로 배분할 수 있다는 주장이다.

연구팀은 초기 benchmark도 함께 제시했다. 2018년부터 2025년까지 발표된 주요 저널의 연구 30건을 모아, 동일한 질문에 대해 모델이 얼마나 일관된 예측을 내는지 평가했다. OpenAI 발표 기준으로 GPT-5.2 zero-shot 설정에서 약 75% 수준의 예측 정확도를 기록했다.

이 결과는 "모델 예측이 곧 과학적 사실"이라는 의미가 아니라, 재현연구 포트폴리오를 짜는 의사결정 도구로서의 실용성을 보여준다는 해석이 더 적절하다. AI를 사회과학의 대체 수단으로 쓰기보다, 연구 운영과 검증 절차를 가속하는 인프라로 쓰는 방향이 분명해졌다는 점에서 의미가 있다.

향후 과제는 세 가지다. 첫째, 정치학 외의 경제학·사회학·심리학으로 확장했을 때도 같은 신호 품질이 유지되는지 검증해야 한다. 둘째, 데이터 수집 편향과 저널 편향을 어떻게 보정할지 명확한 프로토콜이 필요하다. 셋째, 모델 기반 우선순위가 실제 재현 성공률과 어떤 상관을 가지는지 장기 추적이 필요하다. 이번 공개는 이 세 가지 검증을 시작할 수 있는 출발점으로 평가된다.

OpenAI, 160+ 정치학 저널·100만+ synthetic eval로 사회과학 재현연구 우선순위화

Related Articles

OpenAI, ChatGPT가 scientific collaborator로 자리잡고 있다고 보고

하버드 연구: OpenAI o1이 응급실 의사보다 높은 진단 정확도—Science 논문

LifeSciBench 750개 생명과학 과제, AI 연구 평가 기준을 현장형으로 전환