SWE-bench順位も動く25.7%の欠陥、ベンチマーク監査が論点に
Original: Automated Benchmark Auditing for AI Agents and Large Language Models View original →
LLMやエージェントのリーダーボードを見るとき、モデルだけでなく問題そのものを疑う必要が出てきた。2026年5月25日にarXivへ投稿され、5月26日に改訂された論文は、ベンチマークの個別タスクを自動監査するAuto Benchmark Audit、ABAを提案している。
研究チームは、フロンティアLLMベンチマークと過去のNeurIPS論文を含む9領域168ベンチマークを調べた。ABAは、隠れた実行環境依存、不完全な仕様、壊れやすい採点ロジック、曖昧なタスク設計、誤った正解などを検出する。論文は、評価されたタスクの25.7%以上で重大な問題が見つかったと報告した。
影響は小さくない。問題のあるタスクを除外すると、SWE-bench Verifiedの平均性能は9.9%、Terminal-Bench 2は9.6%上がり、モデル順位も変わった。つまり、ベンチマークのノイズは全モデルに均等にかかるわけではない。あるモデルには不利に働き、別のモデルには偶然有利な条件になることがある。
この論点はエージェント評価で特に重い。短い質問応答ではなく、コード実行、ターミナル操作、ツール利用、パッケージ環境が絡むタスクは、人手で完全に検査しにくい。専門家が作った問題でも、暗黙の前提や環境情報の抜けが残り、採点スクリプトが本来測るべき能力とは違うものを測ってしまう場合がある。
論文は、ABAの監査結果を専門家レビューやアップストリームPRなどの第三者シグナルで検証したと説明する。さらに、ツールとタスク注釈を公開し、今後のフロンティアベンチマーク作成で利用できるようにするとしている。
これはベンチマークを捨てる話ではない。むしろ、ベンチマークもソフトウェアと同じようにテスト、 issue 管理、修正履歴を持つべきだという話に近い。モデル順位の数ポイントが調達、研究、製品主張、投資判断を動かすなら、次に信頼されるリーダーボードはスコアだけでなく、タスクの欠陥率と監査履歴も示す必要がある。
Related Articles
LocalLLaMAの反応は驚きよりも納得に近かった。公開benchmarkは結局こうなる、という空気だ。今回はcontaminationとflawed testが数字で並び、従来の自慢材料がもう安定して見えなくなった。
議論は並列agentの新奇性より、レビュー可能性、worktree運用、local-first保存の価値に集中した。
r/LocalLLaMA投稿は「編集ごとの検証」ループでQwen3.5-35B-A3Bが22.2%から37.8%へ改善したと報告し、Claude Opus 4.6の40%参照値に接近した点を示した。
Comments (0)
No comments yet. Be the first to comment!