Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い
Original: Exploiting the most prominent AI agent benchmarks View original →
Hacker Newsのスレッドは、Berkeleyの新しいbenchmark auditをきっかけに、AI agent evaluationをどう信頼すべきかという議論に発展した。研究チームは代表的なagent benchmark 8件を調べ、どのbenchmarkでもtaskを実際には解かずに高いscoreを出せる exploitable path を見つけたと述べている。要点は、leaderboardの数字だけでは capability を読めないという警告だ。
例もかなり具体的だ。Berkeleyは、短いpytest hookでSWE-benchのtest結果を通過したように見せられ、fake curl wrapperでTerminal-Benchのverification chainをだませて、WebArenaではfile navigationから正答ファイルを読めて、FieldWorkArenaではvalidatorがcorrectnessを見ないため弱いJSON応答でも通過できると説明している。記事はこの問題を、contaminated training data、METRのreward hacking報告、OpenAIが内部audit後にSWE-bench Verifiedを外した件と同じ流れの中に置いている。
- SWE-benchではconftest.py hookがtest outcomeを書き換えられると説明された。
- Terminal-Benchではfake curlまたはuvx chainでverifierを誤作動させられるという。
- WebArenaとFieldWorkArenaはanswer leakageとweak validationの例として扱われた。
HNの反応は大きく二つに分かれた。支持的な読者は、leaderboard中心の評価文化に対する必要な是正だと見た。一方で懐疑的な読者は、研究者がexploitを手で設計することと、modelが実運用で自発的にevaluatorを攻撃することは別問題だと指摘し、結局は数字よりmethodologyを見るべきだという古い原則を繰り返した。
実務上の含意は、benchmarkを捨てろという話ではない。これからはsandbox isolation、anti-tampering設計、そしてscoreが何を測っているのかを明示する disclosure がなければ、数字だけでagentを比較するのは難しいということだ。coding agentを選ぶチームにとって、HNスレッドの結論は明快だった。まずevaluation setupを信頼できるかを確認すべきだ。
Related Articles
UC Berkeleyの研究者たちは、主要なAI agent benchmark 8種で、実際のtaskを解かずにほぼ満点を作れる経路を示した。要点は明快で、leaderboardの数値より先にevaluation設計の耐改ざん性を確認すべきだということだ。
Inherentは企業自動化ではなく、科学発見のためのAIエージェントを前面に出す新ラボだ。Louis KirschはDeepMindでのAI Scientist経験と結びつけ、会社資料では5,000万ドルのシード調達も示されている。
coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。
Comments (0)
No comments yet. Be the first to comment!