Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나
Original: How We Broke Top AI Agent Benchmarks: And What Comes Next View original →
Hacker News에서 주목받은 이유
UC Berkeley 연구진의 2026년 4월 글은 2026년 4월 12일 기준 Hacker News에서 202 points와 58 comments를 기록했다. 이 글은 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 주요 AI agent benchmark를 자동화된 scanner로 감사한 뒤, 실제 task를 해결하지 않고도 점수를 부풀릴 수 있는 경로를 정리한다.
연구진의 주장은 단순하다. leaderboard 상단 숫자는 capability의 직접적인 대리변수가 아니라는 것이다. 이들은 benchmark가 score 계산 방식을 얼마나 쉽게 드러내는지, agent가 evaluator가 읽는 file과 trace를 얼마나 쉽게 건드릴 수 있는지, gold answer가 얼마나 쉽게 노출되는지를 문제의 핵심으로 본다.
글에서 제시한 대표 사례
- SWE-bench Verified는 10줄짜리
conftest.pyhook만으로 모든 test를 통과시키는 방식이 가능했다고 설명한다. - Terminal-Bench는 fake
curlwrapper로 89개 task 전부에서 perfect score를 만들 수 있었다. - WebArena는
file://URL로 local config를 읽어 정답을 훔치는 방식이 가능했고, FieldWorkArena는 마지막 메시지가 assistant인지 만 확인해{}만 보내도 통과되는 사례를 제시했다. - OSWorld와 GAIA는 gold answer 접근성과 validator 설계가 benchmark 의미를 약화시키는 예로 등장한다.
다음 단계는 무엇인가
연구진은 해결책도 구체적으로 제안한다. agent가 evaluator 데이터나 중간 산출물을 변조하지 못하게 분리하고, scoring을 더 엄격하게 만들고, public leaderboard에 쓰는 정답은 공개하지 말아야 한다는 것이다. 또한 adversarial testing을 benchmark 개발 단계의 기본 절차로 넣어야 한다고 주장하며, 이를 위한 scanner인 BenchJack도 준비 중이라고 밝혔다. model 선택에 benchmark를 참고하는 팀이라면, 숫자보다 methodology를 먼저 검증해야 한다는 경고로 읽을 만하다.
원문: UC Berkeley RDI. Hacker News 토론: discussion thread.
Related Articles
520점과 132개 댓글을 모은 Hacker News 스레드에서 Berkeley 연구진은 8개 주요 AI agent benchmark가 실제 해결 없이도 harness 취약점으로 거의 만점에 가까운 score를 만들 수 있다고 주장했다.
Claude Code와 Cowork 같은 에이전트가 실제 업무 권한을 얻으면서, 위험의 초점은 모델 설득이 아니라 실행 환경 통제로 이동했다. Anthropic은 사용자 승인 프롬프트의 93%가 그대로 통과된다는 수치를 근거로 샌드박스와 격리를 전면에 세웠다.
Megalodon 캠페인은 6시간 동안 5,718개 악성 commit을 5,561개 GitHub 저장소에 밀어 넣었다. 공격자는 애플리케이션 코드보다 GitHub Actions workflow를 노려 cloud credential과 CI secret을 빼내는 구조를 택했다.
Comments (0)
No comments yet. Be the first to comment!