Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나

Hacker News에서 주목받은 이유

UC Berkeley 연구진의 2026년 4월 글은 2026년 4월 12일 기준 Hacker News에서 202 points와 58 comments를 기록했다. 이 글은 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 주요 AI agent benchmark를 자동화된 scanner로 감사한 뒤, 실제 task를 해결하지 않고도 점수를 부풀릴 수 있는 경로를 정리한다.

연구진의 주장은 단순하다. leaderboard 상단 숫자는 capability의 직접적인 대리변수가 아니라는 것이다. 이들은 benchmark가 score 계산 방식을 얼마나 쉽게 드러내는지, agent가 evaluator가 읽는 file과 trace를 얼마나 쉽게 건드릴 수 있는지, gold answer가 얼마나 쉽게 노출되는지를 문제의 핵심으로 본다.

글에서 제시한 대표 사례

SWE-bench Verified는 10줄짜리 conftest.py hook만으로 모든 test를 통과시키는 방식이 가능했다고 설명한다.
Terminal-Bench는 fake curl wrapper로 89개 task 전부에서 perfect score를 만들 수 있었다.
WebArena는 file:// URL로 local config를 읽어 정답을 훔치는 방식이 가능했고, FieldWorkArena는 마지막 메시지가 assistant인지 만 확인해 {} 만 보내도 통과되는 사례를 제시했다.
OSWorld와 GAIA는 gold answer 접근성과 validator 설계가 benchmark 의미를 약화시키는 예로 등장한다.

다음 단계는 무엇인가

연구진은 해결책도 구체적으로 제안한다. agent가 evaluator 데이터나 중간 산출물을 변조하지 못하게 분리하고, scoring을 더 엄격하게 만들고, public leaderboard에 쓰는 정답은 공개하지 말아야 한다는 것이다. 또한 adversarial testing을 benchmark 개발 단계의 기본 절차로 넣어야 한다고 주장하며, 이를 위한 scanner인 BenchJack도 준비 중이라고 밝혔다. model 선택에 benchmark를 참고하는 팀이라면, 숫자보다 methodology를 먼저 검증해야 한다는 경고로 읽을 만하다.

원문: UC Berkeley RDI. Hacker News 토론: discussion thread.

Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나

Hacker News에서 주목받은 이유

글에서 제시한 대표 사례

다음 단계는 무엇인가

Related Articles

Hacker News에서 주목한 Berkeley 경고: 주요 AI agent benchmark는 score hacking에 취약하다

Claude 에이전트 권한을 프롬프트 대신 샌드박스로 제한

GitHub 5,561개 저장소 덮친 Megalodon, CI/CD가 공격 표면으로

Comments (0)

Leave a Comment