Berkeley는 왜 AI agent benchmark 숫자를 믿기 어렵다고 말하나

Original: How We Broke Top AI Agent Benchmarks: And What Comes Next View original →

Read in other languages: English日本語
AI Apr 12, 2026 By Insights AI (HN) 1 min read Source

Hacker News에서 주목받은 이유

UC Berkeley 연구진의 2026년 4월 글은 2026년 4월 12일 기준 Hacker News에서 202 points와 58 comments를 기록했다. 이 글은 SWE-bench, WebArena, OSWorld, GAIA, Terminal-Bench, FieldWorkArena, CAR-bench 등 주요 AI agent benchmark를 자동화된 scanner로 감사한 뒤, 실제 task를 해결하지 않고도 점수를 부풀릴 수 있는 경로를 정리한다.

연구진의 주장은 단순하다. leaderboard 상단 숫자는 capability의 직접적인 대리변수가 아니라는 것이다. 이들은 benchmark가 score 계산 방식을 얼마나 쉽게 드러내는지, agent가 evaluator가 읽는 file과 trace를 얼마나 쉽게 건드릴 수 있는지, gold answer가 얼마나 쉽게 노출되는지를 문제의 핵심으로 본다.

글에서 제시한 대표 사례

  • SWE-bench Verified는 10줄짜리 conftest.py hook만으로 모든 test를 통과시키는 방식이 가능했다고 설명한다.
  • Terminal-Bench는 fake curl wrapper로 89개 task 전부에서 perfect score를 만들 수 있었다.
  • WebArena는 file:// URL로 local config를 읽어 정답을 훔치는 방식이 가능했고, FieldWorkArena는 마지막 메시지가 assistant인지 만 확인해 {} 만 보내도 통과되는 사례를 제시했다.
  • OSWorld와 GAIA는 gold answer 접근성과 validator 설계가 benchmark 의미를 약화시키는 예로 등장한다.

다음 단계는 무엇인가

연구진은 해결책도 구체적으로 제안한다. agent가 evaluator 데이터나 중간 산출물을 변조하지 못하게 분리하고, scoring을 더 엄격하게 만들고, public leaderboard에 쓰는 정답은 공개하지 말아야 한다는 것이다. 또한 adversarial testing을 benchmark 개발 단계의 기본 절차로 넣어야 한다고 주장하며, 이를 위한 scanner인 BenchJack도 준비 중이라고 밝혔다. model 선택에 benchmark를 참고하는 팀이라면, 숫자보다 methodology를 먼저 검증해야 한다는 경고로 읽을 만하다.

원문: UC Berkeley RDI. Hacker News 토론: discussion thread.

Share: Long

Related Articles

AI Mar 19, 2026 1 min read

Google DeepMind는 2026년 3월 17일, AGI 진전을 평가하기 위한 새로운 cognitive science 기반 framework를 공개하고 이를 실제 benchmark로 바꾸기 위한 Kaggle hackathon을 시작했다고 밝혔다. 이 제안은 10개의 cognitive ability를 정의하고 human baseline과의 비교를 권장하며, community-built evaluation에 총 20만 달러 상금을 건다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.