GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ

129問で測るbiology agent

生物学研究を支援するAI agentは、単なる質問応答だけでは評価しにくい。OpenAIは2026年6月30日のX投稿でGeneBench-Proを示し、実世界のbiology tasksでagentを評価するためのbenchmarkだと説明した。投稿の中心は次の一文だ。

“GeneBench-Pro: a benchmark for evaluating AI agents on real-world biology tasks.”

OpenAIの記事を引用した複数のインデックス情報によると、GeneBench-Proは129件の計算生物学問題で構成される。対象は用語説明ではなく、ゲノム解析、実験設計、データ解釈のように、途中の判断と最終成果物の品質を見なければならない作業だ。報告された成績もまだ低い。GPT-5.6 Solは最高推論設定で28.7%、Pro modeで31.5%に達した一方、元のGeneBenchを作り始めた時期のGPT-5は5%未満だったとされる。

OpenAIの公式アカウントは通常、モデル公開、製品更新、研究成果を扱う。今回の投稿はその中でも評価インフラに近い。生物学はLLM agentの導入が進む一方、誤った推論や手順ミスのコストが高い領域である。論文検索、コード実行、データベース参照、レポート作成までagentが担うなら、最終回答だけではなく、作業過程を含めた評価が必要になる。

注目すべき数字は31.5%と飽和までの距離だ。最強モデルでも多くの問題を落とすbenchmarkは進歩を追うには有用だが、同時にbiology agentを今日すぐ自律研究者として扱う危うさも示す。次に見るべき点は、GeneBench-ProがOpenAI外でも再現可能な共通指標になるかだ。drug discovery、genomics、lab automationの開発チームは、タスクの幅、採点の透明性、実運用での失敗減少との対応を確認する必要がある。出典: OpenAI source tweet · OpenAI GeneBench-Pro post

GeneBench-Pro、biology agent評価を129問の研究判断ベンチマークへ

129問で測るbiology agent

Related Articles

LifeSciBench、750の専門課題で生命科学AIの実務力を測る基準へ

GPT-Rosalind、GPT-5.5のtool useとcodingを生命科学研究ワークフローへ統合

生物学エージェント、gget virus追加で精度がほぼ100%へ