OpenAI、社会科学の再現研究トリアージを1M+ synthetic evalで拡張

OpenAIは2026年2月13日に、社会科学の再現研究を効率化するための新しい運用手法を公開した。焦点は、すべての研究を同時に再実験するのではなく、限られたリソースで「どの研究を先に検証すべきか」を定量的に絞り込むことにある。

公開情報では、160を超える政治学ジャーナルの論文に対して100万件超のsynthetic evaluationを実行した。モデルは論文タイトルとアブストラクトを入力に、実サンプルで得られる結果を予測する。次に、その予測と観測結果の差分を分析し、再現検証の優先候補を抽出する。

OpenAIは、この不一致(disagreement)を単なる誤差ではなく、検証価値の高い研究を見つけるためのシグナルとして扱えると説明している。研究費や人的リソースが制約される環境で、再現実験のポートフォリオ設計を前倒しで改善できる点が実務上の価値になる。

同時に、初期benchmarkも提示された。2018年から2025年の主要ジャーナル30研究を用いた評価で、OpenAI公表値ではGPT-5.2のzero-shot設定が約75%の予測精度を示した。ここで重要なのは、モデルが科学的真偽を確定することではなく、どこに人間の追加検証を集中させるべきかを早く判断できる点にある。

この手法が広く有効かどうかは今後の検証に依存する。政治学以外の分野への一般化、データセットの偏り補正、モデル主導トリアージが最終的な再現成功率に与える効果の追跡が必要だ。それでも今回の発表は、AIを科学研究の「代替」ではなく「検証運用インフラ」として使う方向性を具体化したアップデートと言える。

Sciences Apr 14, 2026 1 min read

OpenAI、ChatGPT が scientific collaborator になりつつあると報告

OpenAIは、ChatGPTがscienceとmathematicsで既にresearch-scaleで使われていると述べた。2026年1月の報告書では、advanced science・math usageが週8.4 million messages、weekly userが約1.3 millionに達し、GPT-5.2がserious mathematical workでも初期成果を見せ始めたとしている。

#openai #science #chatgpt

Sciences Reddit 5d ago 1 min read