BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか
Original: How We Broke Top AI Agent Benchmarks: And What Comes Next View original →
Hacker Newsで注目された背景
UC Berkeleyの研究チームが2026年4月に公開した記事は、2026年4月12日時点でHacker Newsの202 points、58 commentsを集めた。内容は、主要なAI agent benchmark 8種を自動scannerで監査し、taskそのものを解かずに高得点を得られる経路を整理したものだ。
彼らの主張は、benchmarkの数字がそのままcapabilityを表すわけではないという点にある。問題は、agentがevaluatorの読むartifactを改ざんできること、gold answerがconfigや公開file経由で見えてしまうこと、validatorが実際のtask完了ではなく表面的な出力形式だけを採点してしまうことだ。
記事で示された具体例
- SWE-bench Verifiedでは、短い
conftest.pyhookで全testを通す方法が示された。 - Terminal-Benchでは、fake
curlwrapperで89 taskすべてをperfect scoreにできたという。 - WebArenaでは、Chromiumを
file://pathへ誘導し、local configからanswer keyを読む攻撃が成立した。 - FieldWorkArenaでは、最後のmessageがassistant由来かどうかしか見ておらず、
{}を返すだけで通るケースがあった。
次に必要なこと
この記事は単なる暴露ではなく、改善策も並べている。evaluator stateをagent環境から分離し、scoring codeが信頼するpathへagentが書き込めないようにし、より厳密なscoringを採用し、public leaderboardに使うground truthは非公開にすべきだという提案だ。さらに、benchmark vulnerability scannerであるBenchJackも開発中だと述べている。benchmark表をmodel選定の根拠にしているチームにとって、先に信じるべきなのは数字ではなくmethodologyだという警告として読むべきだろう。
原文: UC Berkeley RDI. Hacker News discussion: thread.
Related Articles
520ポイント、132コメントを集めたHacker Newsのスレッドで、Berkeleyの研究者は8つの主要AI agent benchmarkが実タスクを解かなくてもharnessの弱点で高得点化できると主張した。
Megalodonは約6時間で5,718件の悪性commitを5,561件のGitHub repositoryに投入した。狙われたのはアプリ本体だけではなく、cloud credentialやCI secretを持つGitHub Actions workflowだった。
TrapDoorは5月22日以降、npm、PyPI、Crates.ioに34個超の悪性パッケージを広げた。注目点は認証情報の窃取だけでなく、.cursorrulesやCLAUDE.mdを使ってAIコーディング支援ツールまで攻撃経路に入れたことだ。
Comments (0)
No comments yet. Be the first to comment!