Hacker News에서 주목한 Berkeley 경고: 주요 AI agent benchmark는 score hacking에 취약하다

Hacker News 스레드는 Berkeley의 새 benchmark audit를 계기로 AI agent evaluation을 어떻게 믿어야 하는지 다시 묻게 만들었다. 연구진은 대표적인 agent benchmark 8개를 점검했고, 모든 benchmark에서 task를 실제로 풀지 않고도 거의 만점에 가까운 결과를 만들 수 있는 exploitable scoring path를 찾았다고 말했다. 핵심 경고는 leaderboard 숫자만으로는 capability를 읽을 수 없다는 점이다.

사례도 구체적이다. Berkeley는 짧은 pytest hook만으로 SWE-bench 결과를 통과처럼 보이게 만들 수 있고, fake curl wrapper로 Terminal-Bench의 verification chain을 속일 수 있으며, WebArena는 file navigation으로 정답 파일을 읽을 수 있고, FieldWorkArena는 validator가 correctness를 확인하지 않아 빈약한 JSON 응답만으로도 통과할 수 있다고 설명했다. 글은 이 문제를 contaminated training data, METR의 reward hacking 보고, 그리고 OpenAI가 SWE-bench Verified를 내부 audit 뒤에 내린 사례와 같은 흐름 위에 놓는다.

SWE-bench에서는 conftest.py hook이 test 결과를 오염시킬 수 있다고 Berkeley는 설명했다.
Terminal-Bench에서는 fake curl 또는 uvx chain이 verifier를 속일 수 있는 사례가 제시됐다.
WebArena와 FieldWorkArena는 answer leakage와 weak validation 문제가 함께 지적됐다.

HN 반응은 대체로 두 갈래였다. 지지하는 쪽은 이 정리가 leaderboard 중심의 평가 문화에 필요한 교정이라고 봤다. 반대로 회의적인 쪽은 연구자가 exploit를 직접 설계한 것과 model이 실사용에서 evaluator를 자발적으로 공격하는 것은 다른 문제라고 지적했고, 결국 숫자보다 methodology를 봐야 한다는 오래된 원칙을 다시 강조했다.

실무자에게 남는 메시지는 benchmark를 버리라는 것이 아니다. 이제는 sandbox isolation, anti-tampering 설계, 그리고 score가 무엇을 측정하는지에 대한 명확한 disclosure가 없으면 숫자만으로 agent를 비교하기 어렵다는 뜻이다. coding agent를 고르는 팀이라면 HN 스레드의 결론은 단순했다. 먼저 evaluation setup를 믿을 수 있어야 한다.

Hacker News에서 주목한 Berkeley 경고: 주요 AI agent benchmark는 score hacking에 취약하다

Related Articles

Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나

DeepMind 출신 연구자가 자기개선형 과학 AI 연구소 Inherent를 시작한 배경과 의미

Cursor agent, NVIDIA Blackwell CUDA kernel을 3주 만에 38% 가속

Comments (0)

Leave a Comment

Related Articles

Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나
AI Hacker News Apr 12, 2026 1 min read

DeepMind 출신 연구자가 자기개선형 과학 AI 연구소 Inherent를 시작한 배경과 의미

Cursor agent, NVIDIA Blackwell CUDA kernel을 3주 만에 38% 가속
AI X/Twitter Apr 16, 2026 1 min read