OpenAI、社会科学の再現研究トリアージを1M+ synthetic evalで拡張
Original: Scaling social science research with language models View original →
OpenAIは2026年2月13日に、社会科学の再現研究を効率化するための新しい運用手法を公開した。焦点は、すべての研究を同時に再実験するのではなく、限られたリソースで「どの研究を先に検証すべきか」を定量的に絞り込むことにある。
公開情報では、160を超える政治学ジャーナルの論文に対して100万件超のsynthetic evaluationを実行した。モデルは論文タイトルとアブストラクトを入力に、実サンプルで得られる結果を予測する。次に、その予測と観測結果の差分を分析し、再現検証の優先候補を抽出する。
OpenAIは、この不一致(disagreement)を単なる誤差ではなく、検証価値の高い研究を見つけるためのシグナルとして扱えると説明している。研究費や人的リソースが制約される環境で、再現実験のポートフォリオ設計を前倒しで改善できる点が実務上の価値になる。
同時に、初期benchmarkも提示された。2018年から2025年の主要ジャーナル30研究を用いた評価で、OpenAI公表値ではGPT-5.2のzero-shot設定が約75%の予測精度を示した。ここで重要なのは、モデルが科学的真偽を確定することではなく、どこに人間の追加検証を集中させるべきかを早く判断できる点にある。
この手法が広く有効かどうかは今後の検証に依存する。政治学以外の分野への一般化、データセットの偏り補正、モデル主導トリアージが最終的な再現成功率に与える効果の追跡が必要だ。それでも今回の発表は、AIを科学研究の「代替」ではなく「検証運用インフラ」として使う方向性を具体化したアップデートと言える。
Related Articles
OpenAIは、ChatGPTがscienceとmathematicsで既にresearch-scaleで使われていると述べた。2026年1月の報告書では、advanced science・math usageが週8.4 million messages、weekly userが約1.3 millionに達し、GPT-5.2がserious mathematical workでも初期成果を見せ始めたとしている。
r/MachineLearningは1,200本の一覧を有用な入口として見ながらも、「linkがある」と「結果を再現できる」は別だとすぐに指摘した。コメントでは漏れ、404、動かないcodeまで、研究公開の現実的な摩擦が並んだ。
OpenAIのKevin Weilは2026年4月7日のXで、Prismの新機能Paper Reviewを紹介した。このworkflowはgrammar correctionを超えて、math、notation、units、structure、evidence supportを点検し、その結果をeditable LaTeX review fileとしてproject内に書き戻すという。
Comments (0)
No comments yet. Be the first to comment!