BerkeleyはなぜAI agent benchmarkの数字を疑うべきだと言うのか

Original: How We Broke Top AI Agent Benchmarks: And What Comes Next View original →

Read in other languages: 한국어English
AI Apr 12, 2026 By Insights AI (HN) 1 min read Source

Hacker Newsで注目された背景

UC Berkeleyの研究チームが2026年4月に公開した記事は、2026年4月12日時点でHacker Newsの202 points、58 commentsを集めた。内容は、主要なAI agent benchmark 8種を自動scannerで監査し、taskそのものを解かずに高得点を得られる経路を整理したものだ。

彼らの主張は、benchmarkの数字がそのままcapabilityを表すわけではないという点にある。問題は、agentがevaluatorの読むartifactを改ざんできること、gold answerがconfigや公開file経由で見えてしまうこと、validatorが実際のtask完了ではなく表面的な出力形式だけを採点してしまうことだ。

記事で示された具体例

  • SWE-bench Verifiedでは、短い conftest.py hookで全testを通す方法が示された。
  • Terminal-Benchでは、fake curl wrapperで89 taskすべてをperfect scoreにできたという。
  • WebArenaでは、Chromiumを file:// pathへ誘導し、local configからanswer keyを読む攻撃が成立した。
  • FieldWorkArenaでは、最後のmessageがassistant由来かどうかしか見ておらず、{} を返すだけで通るケースがあった。

次に必要なこと

この記事は単なる暴露ではなく、改善策も並べている。evaluator stateをagent環境から分離し、scoring codeが信頼するpathへagentが書き込めないようにし、より厳密なscoringを採用し、public leaderboardに使うground truthは非公開にすべきだという提案だ。さらに、benchmark vulnerability scannerであるBenchJackも開発中だと述べている。benchmark表をmodel選定の根拠にしているチームにとって、先に信じるべきなのは数字ではなくmethodologyだという警告として読むべきだろう。

原文: UC Berkeley RDI. Hacker News discussion: thread.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.