BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

Hacker Newsで注目された背景

UC Berkeleyの研究チームが2026年4月に公開した記事は、2026年4月12日時点でHacker Newsの202 points、58 commentsを集めた。内容は、主要なAI agent benchmark 8種を自動scannerで監査し、taskそのものを解かずに高得点を得られる経路を整理したものだ。

彼らの主張は、benchmarkの数字がそのままcapabilityを表すわけではないという点にある。問題は、agentがevaluatorの読むartifactを改ざんできること、gold answerがconfigや公開file経由で見えてしまうこと、validatorが実際のtask完了ではなく表面的な出力形式だけを採点してしまうことだ。

記事で示された具体例

SWE-bench Verifiedでは、短い conftest.py hookで全testを通す方法が示された。
Terminal-Benchでは、fake curl wrapperで89 taskすべてをperfect scoreにできたという。
WebArenaでは、Chromiumを file:// pathへ誘導し、local configからanswer keyを読む攻撃が成立した。
FieldWorkArenaでは、最後のmessageがassistant由来かどうかしか見ておらず、{} を返すだけで通るケースがあった。

次に必要なこと

この記事は単なる暴露ではなく、改善策も並べている。evaluator stateをagent環境から分離し、scoring codeが信頼するpathへagentが書き込めないようにし、より厳密なscoringを採用し、public leaderboardに使うground truthは非公開にすべきだという提案だ。さらに、benchmark vulnerability scannerであるBenchJackも開発中だと述べている。benchmark表をmodel選定の根拠にしているチームにとって、先に信じるべきなのは数字ではなくmethodologyだという警告として読むべきだろう。

原文: UC Berkeley RDI. Hacker News discussion: thread.

BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

Hacker Newsで注目された背景

記事で示された具体例

次に必要なこと

Related Articles

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い

MegalodonがGitHub 5,561件を汚染、CI workflowが主戦場に

34個の悪性パッケージTrapDoor、AIコーディング設定も攻撃経路に

Comments (0)

Leave a Comment

Related Articles

Hacker Newsで広がったBerkeleyの警告: 主要AI agent benchmarkはscore hackingに弱い
AI Hacker News Apr 13, 2026 1 min read

MegalodonがGitHub 5,561件を汚染、CI workflowが主戦場に
Megalodonは約6時間で5,718件の悪性commitを5,561件のGitHub repositoryに投入した。狙われたのはアプリ本体だけではなく、cloud credentialやCI secretを持つGitHub Actions workflowだった。

34個の悪性パッケージTrapDoor、AIコーディング設定も攻撃経路に
AI May 25, 2026 1 min read