OpenAI, 160+ 정치학 저널·100만+ synthetic eval로 사회과학 재현연구 우선순위화
Original: Scaling social science research with language models View original →
OpenAI는 2026년 2월 13일(미국 시간) 공개한 연구에서, language model을 이용해 사회과학 재현연구(reproducibility research)의 우선순위를 정하는 파이프라인을 제시했다. 핵심은 실제 실험을 먼저 전부 재수행하기보다, "어떤 연구를 먼저 검증해야 의미가 큰가"를 정량적으로 좁히는 것이다.
공개 내용에 따르면 연구팀은 160개 이상 정치학 저널의 논문을 대상으로 100만 건이 넘는 synthetic evaluation을 수행했다. 모델은 각 논문의 제목과 초록만 보고, 사람이 모은 실제 샘플에서 어떤 결과가 나올지를 예측한다. 이후 모델 예측과 기존 결과 간 차이를 분석해, 표본·맥락 변화에 민감할 가능성이 큰 연구를 후보군으로 올린다.
OpenAI는 이 불일치(disagreement)가 단순 오차 신호가 아니라 "재현 가치가 높은 주제"를 찾는 신호로 작동할 수 있다고 설명한다. 즉, 모델이 기존 결과와 다르게 예측하는 사례를 중심으로 후속 실험을 설계하면, 제한된 연구비와 시간을 보다 효율적으로 배분할 수 있다는 주장이다.
연구팀은 초기 benchmark도 함께 제시했다. 2018년부터 2025년까지 발표된 주요 저널의 연구 30건을 모아, 동일한 질문에 대해 모델이 얼마나 일관된 예측을 내는지 평가했다. OpenAI 발표 기준으로 GPT-5.2 zero-shot 설정에서 약 75% 수준의 예측 정확도를 기록했다.
이 결과는 "모델 예측이 곧 과학적 사실"이라는 의미가 아니라, 재현연구 포트폴리오를 짜는 의사결정 도구로서의 실용성을 보여준다는 해석이 더 적절하다. AI를 사회과학의 대체 수단으로 쓰기보다, 연구 운영과 검증 절차를 가속하는 인프라로 쓰는 방향이 분명해졌다는 점에서 의미가 있다.
향후 과제는 세 가지다. 첫째, 정치학 외의 경제학·사회학·심리학으로 확장했을 때도 같은 신호 품질이 유지되는지 검증해야 한다. 둘째, 데이터 수집 편향과 저널 편향을 어떻게 보정할지 명확한 프로토콜이 필요하다. 셋째, 모델 기반 우선순위가 실제 재현 성공률과 어떤 상관을 가지는지 장기 추적이 필요하다. 이번 공개는 이 세 가지 검증을 시작할 수 있는 출발점으로 평가된다.
Related Articles
NMR 구조 해석은 합성화학의 병목인데, Anthropic은 Opus 4.7이 20개 화합물 평가에서 ChemDraw·MestReNova와 경쟁했다고 밝혔다. 수소 NMR 평균 오차는 약 ±0.079 ppm이었다.
OpenAI는 ChatGPT가 science와 mathematics에서 이미 research-scale로 쓰이고 있다고 밝혔다. 2026년 1월 보고서에 따르면 advanced science·math usage는 주당 8.4 million messages, weekly users는 약 1.3 million에 이르렀고, GPT-5.2는 serious mathematical work에서도 초기 성과를 보이기 시작했다.
OpenAI의 범용 추론 모델이 수학자 폴 에르되시가 1946년에 제시한 기하학 난제를 자율적으로 해결했다. AI가 수학의 주요 미해결 문제를 스스로 풀어낸 최초의 사례로, 외부 수학자들이 증명을 검토하고 검증했다.