BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか
Original: How We Broke Top AI Agent Benchmarks: And What Comes Next View original →
Hacker Newsで注目された背景
UC Berkeleyの研究チームが2026年4月に公開した記事は、2026年4月12日時点でHacker Newsの202 points、58 commentsを集めた。内容は、主要なAI agent benchmark 8種を自動scannerで監査し、taskそのものを解かずに高得点を得られる経路を整理したものだ。
彼らの主張は、benchmarkの数字がそのままcapabilityを表すわけではないという点にある。問題は、agentがevaluatorの読むartifactを改ざんできること、gold answerがconfigや公開file経由で見えてしまうこと、validatorが実際のtask完了ではなく表面的な出力形式だけを採点してしまうことだ。
記事で示された具体例
- SWE-bench Verifiedでは、短い
conftest.pyhookで全testを通す方法が示された。 - Terminal-Benchでは、fake
curlwrapperで89 taskすべてをperfect scoreにできたという。 - WebArenaでは、Chromiumを
file://pathへ誘導し、local configからanswer keyを読む攻撃が成立した。 - FieldWorkArenaでは、最後のmessageがassistant由来かどうかしか見ておらず、
{}を返すだけで通るケースがあった。
次に必要なこと
この記事は単なる暴露ではなく、改善策も並べている。evaluator stateをagent環境から分離し、scoring codeが信頼するpathへagentが書き込めないようにし、より厳密なscoringを採用し、public leaderboardに使うground truthは非公開にすべきだという提案だ。さらに、benchmark vulnerability scannerであるBenchJackも開発中だと述べている。benchmark表をmodel選定の根拠にしているチームにとって、先に信じるべきなのは数字ではなくmethodologyだという警告として読むべきだろう。
原文: UC Berkeley RDI. Hacker News discussion: thread.
Related Articles
NISTは2026年2月17日、Center for AI Standards and InnovationがAI Agent Standards Initiativeを開始すると発表した。この取り組みはautonomous AI systemの普及に向け、技術標準、open protocol、agent securityとidentityの研究を同時に進める。
r/artificial の投稿は、email、phone number、browser、computer、memory、payments、SaaS access といった人間の基本機能が、急速に agent 向け API primitive として再構成されつつあると整理している。
2026年3月のHacker Newsで、Stanford SCSの `jai` は604 pointsと313 commentsを集めた。作業中のディレクトリはそのまま書き込み可能に保ちつつ、homeの残りをoverlayまたは非表示にしてAI agentの被害範囲を絞るLinux向けcontainmentツールだ。
Comments (0)
No comments yet. Be the first to comment!