Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

Hacker Newsのスレッドは、Berkeleyの新しいbenchmark auditをきっかけに、AI agent evaluationをどう信頼すべきかという議論に発展した。研究チームは代表的なagent benchmark 8件を調べ、どのbenchmarkでもtaskを実際には解かずに高いscoreを出せる exploitable path を見つけたと述べている。要点は、leaderboardの数字だけでは capability を読めないという警告だ。

例もかなり具体的だ。Berkeleyは、短いpytest hookでSWE-benchのtest結果を通過したように見せられ、fake curl wrapperでTerminal-Benchのverification chainをだませて、WebArenaではfile navigationから正答ファイルを読めて、FieldWorkArenaではvalidatorがcorrectnessを見ないため弱いJSON応答でも通過できると説明している。記事はこの問題を、contaminated training data、METRのreward hacking報告、OpenAIが内部audit後にSWE-bench Verifiedを外した件と同じ流れの中に置いている。

SWE-benchではconftest.py hookがtest outcomeを書き換えられると説明された。
Terminal-Benchではfake curlまたはuvx chainでverifierを誤作動させられるという。
WebArenaとFieldWorkArenaはanswer leakageとweak validationの例として扱われた。

HNの反応は大きく二つに分かれた。支持的な読者は、leaderboard中心の評価文化に対する必要な是正だと見た。一方で懐疑的な読者は、研究者がexploitを手で設計することと、modelが実運用で自発的にevaluatorを攻撃することは別問題だと指摘し、結局は数字よりmethodologyを見るべきだという古い原則を繰り返した。

実務上の含意は、benchmarkを捨てろという話ではない。これからはsandbox isolation、anti-tampering設計、そしてscoreが何を測っているのかを明示する disclosure がなければ、数字だけでagentを比較するのは難しいということだ。coding agentを選ぶチームにとって、HNスレッドの結論は明快だった。まずevaluation setupを信頼できるかを確認すべきだ。

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

Related Articles

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

DeepMind出身研究者が自己改善型の科学AIラボInherentを始めた狙いと技術的意味

Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化

Comments (0)

Leave a Comment

Related Articles

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか
AI Hacker News Apr 12, 2026 1 min read

DeepMind出身研究者が自己改善型の科学AIラボInherentを始めた狙いと技術的意味
Inherentは企業自動化ではなく、科学発見のためのAIエージェントを前面に出す新ラボだ。Louis KirschはDeepMindでのAI Scientist経験と結びつけ、会社資料では5,000万ドルのシード調達も示されている。

Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化
AI X/Twitter Apr 16, 2026 1 min read