GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ
Original: GeneBench-Pro turns biology agents into a 129-problem benchmark View original →
129問で測るbiology agent
生物学研究を支援するAI agentは、単なる質問応答だけでは評価しにくい。OpenAIは2026年6月30日のX投稿でGeneBench-Proを示し、実世界のbiology tasksでagentを評価するためのbenchmarkだと説明した。投稿の中心は次の一文だ。
“GeneBench-Pro: a benchmark for evaluating AI agents on real-world biology tasks.”
OpenAIの記事を引用した複数のインデックス情報によると、GeneBench-Proは129件の計算生物学問題で構成される。対象は用語説明ではなく、ゲノム解析、実験設計、データ解釈のように、途中の判断と最終成果物の品質を見なければならない作業だ。報告された成績もまだ低い。GPT-5.6 Solは最高推論設定で28.7%、Pro modeで31.5%に達した一方、元のGeneBenchを作り始めた時期のGPT-5は5%未満だったとされる。
OpenAIの公式アカウントは通常、モデル公開、製品更新、研究成果を扱う。今回の投稿はその中でも評価インフラに近い。生物学はLLM agentの導入が進む一方、誤った推論や手順ミスのコストが高い領域である。論文検索、コード実行、データベース参照、レポート作成までagentが担うなら、最終回答だけではなく、作業過程を含めた評価が必要になる。
注目すべき数字は31.5%と飽和までの距離だ。最強モデルでも多くの問題を落とすbenchmarkは進歩を追うには有用だが、同時にbiology agentを今日すぐ自律研究者として扱う危うさも示す。次に見るべき点は、GeneBench-ProがOpenAI外でも再現可能な共通指標になるかだ。drug discovery、genomics、lab automationの開発チームは、タスクの幅、採点の透明性、実運用での失敗減少との対応を確認する必要がある。出典: OpenAI source tweet · OpenAI GeneBench-Pro post
Related Articles
生命科学向けAIの評価が、研究現場に近い課題へ寄ってきた。OpenAIは、バイオ・製薬分野の科学者173人と7つの研究ワークフローにまたがる750課題を作ったとしている。
生命科学AIは文献支援から実行可能な研究workflowへ進んでいる。OpenAIはGPT-RosalindがMedChemBench 27.5%、GeneBench 21.6%、LabWorkBench 63.2%を記録したと示した。
Anthropicは科学AIの課題を、モデルの推論力だけでなくデータ検索基盤の問題として示した。NCBI Virusの検索課題では、gget virusを加えると精度がほぼ100%まで上がった。