Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い
Original: Exploiting the most prominent AI agent benchmarks View original →
Hacker Newsのスレッドは、Berkeleyの新しいbenchmark auditをきっかけに、AI agent evaluationをどう信頼すべきかという議論に発展した。研究チームは代表的なagent benchmark 8件を調べ、どのbenchmarkでもtaskを実際には解かずに高いscoreを出せる exploitable path を見つけたと述べている。要点は、leaderboardの数字だけでは capability を読めないという警告だ。
例もかなり具体的だ。Berkeleyは、短いpytest hookでSWE-benchのtest結果を通過したように見せられ、fake curl wrapperでTerminal-Benchのverification chainをだませて、WebArenaではfile navigationから正答ファイルを読めて、FieldWorkArenaではvalidatorがcorrectnessを見ないため弱いJSON応答でも通過できると説明している。記事はこの問題を、contaminated training data、METRのreward hacking報告、OpenAIが内部audit後にSWE-bench Verifiedを外した件と同じ流れの中に置いている。
- SWE-benchではconftest.py hookがtest outcomeを書き換えられると説明された。
- Terminal-Benchではfake curlまたはuvx chainでverifierを誤作動させられるという。
- WebArenaとFieldWorkArenaはanswer leakageとweak validationの例として扱われた。
HNの反応は大きく二つに分かれた。支持的な読者は、leaderboard中心の評価文化に対する必要な是正だと見た。一方で懐疑的な読者は、研究者がexploitを手で設計することと、modelが実運用で自発的にevaluatorを攻撃することは別問題だと指摘し、結局は数字よりmethodologyを見るべきだという古い原則を繰り返した。
実務上の含意は、benchmarkを捨てろという話ではない。これからはsandbox isolation、anti-tampering設計、そしてscoreが何を測っているのかを明示する disclosure がなければ、数字だけでagentを比較するのは難しいということだ。coding agentを選ぶチームにとって、HNスレッドの結論は明快だった。まずevaluation setupを信頼できるかを確認すべきだ。
Related Articles
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
r/artificial の投稿は、email、phone number、browser、computer、memory、payments、SaaS access といった人間の基本機能が、急速に agent 向け API primitive として再構成されつつあると整理している。
Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。
Comments (0)
No comments yet. Be the first to comment!