Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

Original: Exploiting the most prominent AI agent benchmarks View original →

Read in other languages: 한국어English
AI Apr 13, 2026 By Insights AI (HN) 1 min read Source

Hacker Newsのスレッドは、Berkeleyの新しいbenchmark auditをきっかけに、AI agent evaluationをどう信頼すべきかという議論に発展した。研究チームは代表的なagent benchmark 8件を調べ、どのbenchmarkでもtaskを実際には解かずに高いscoreを出せる exploitable path を見つけたと述べている。要点は、leaderboardの数字だけでは capability を読めないという警告だ。

例もかなり具体的だ。Berkeleyは、短いpytest hookでSWE-benchのtest結果を通過したように見せられ、fake curl wrapperでTerminal-Benchのverification chainをだませて、WebArenaではfile navigationから正答ファイルを読めて、FieldWorkArenaではvalidatorがcorrectnessを見ないため弱いJSON応答でも通過できると説明している。記事はこの問題を、contaminated training data、METRのreward hacking報告、OpenAIが内部audit後にSWE-bench Verifiedを外した件と同じ流れの中に置いている。

  • SWE-benchではconftest.py hookがtest outcomeを書き換えられると説明された。
  • Terminal-Benchではfake curlまたはuvx chainでverifierを誤作動させられるという。
  • WebArenaとFieldWorkArenaはanswer leakageとweak validationの例として扱われた。

HNの反応は大きく二つに分かれた。支持的な読者は、leaderboard中心の評価文化に対する必要な是正だと見た。一方で懐疑的な読者は、研究者がexploitを手で設計することと、modelが実運用で自発的にevaluatorを攻撃することは別問題だと指摘し、結局は数字よりmethodologyを見るべきだという古い原則を繰り返した。

実務上の含意は、benchmarkを捨てろという話ではない。これからはsandbox isolation、anti-tampering設計、そしてscoreが何を測っているのかを明示する disclosure がなければ、数字だけでagentを比較するのは難しいということだ。coding agentを選ぶチームにとって、HNスレッドの結論は明快だった。まずevaluation setupを信頼できるかを確認すべきだ。

Share: Long

Related Articles

AI Mar 19, 2026 1 min read

Google DeepMindは2026年3月17日、AGIへの進捗を評価するための新しいcognitive scienceベースのframeworkを公開し、それを実用benchmarkへ落とし込むためのKaggle hackathonを開始した。10のcognitive abilityを定義し、human baselineとの比較を推奨し、community-built evaluationに総額20万ドルの賞金を設定している。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.