SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

LLMやエージェントのリーダーボードを見るとき、モデルだけでなく問題そのものを疑う必要が出てきた。2026年5月25日にarXivへ投稿され、5月26日に改訂された論文は、ベンチマークの個別タスクを自動監査するAuto Benchmark Audit、ABAを提案している。

研究チームは、フロンティアLLMベンチマークと過去のNeurIPS論文を含む9領域168ベンチマークを調べた。ABAは、隠れた実行環境依存、不完全な仕様、壊れやすい採点ロジック、曖昧なタスク設計、誤った正解などを検出する。論文は、評価されたタスクの25.7%以上で重大な問題が見つかったと報告した。

影響は小さくない。問題のあるタスクを除外すると、SWE-bench Verifiedの平均性能は9.9%、Terminal-Bench 2は9.6%上がり、モデル順位も変わった。つまり、ベンチマークのノイズは全モデルに均等にかかるわけではない。あるモデルには不利に働き、別のモデルには偶然有利な条件になることがある。

この論点はエージェント評価で特に重い。短い質問応答ではなく、コード実行、ターミナル操作、ツール利用、パッケージ環境が絡むタスクは、人手で完全に検査しにくい。専門家が作った問題でも、暗黙の前提や環境情報の抜けが残り、採点スクリプトが本来測るべき能力とは違うものを測ってしまう場合がある。

論文は、ABAの監査結果を専門家レビューやアップストリームPRなどの第三者シグナルで検証したと説明する。さらに、ツールとタスク注釈を公開し、今後のフロンティアベンチマーク作成で利用できるようにするとしている。

これはベンチマークを捨てる話ではない。むしろ、ベンチマークもソフトウェアと同じようにテスト、 issue 管理、修正履歴を持つべきだという話に近い。モデル順位の数ポイントが調達、研究、製品主張、投資判断を動かすなら、次に信頼されるリーダーボードはスコアだけでなく、タスクの欠陥率と監査履歴も示す必要がある。

SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に

Related Articles

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

Related Articles

SWE-Bench Proの30%に欠陥、OpenAIがcoding評価推奨を撤回

SWE-bench Verifiedはもう限界か LocalLLaMAがbenchmaxxedと呼んだ背景

GitHub Copilot harness、5つのcoding benchでtoken効率を提示

SWE-bench Verifiedはもう限界か　LocalLLaMAがbenchmaxxedと呼んだ背景