UC Berkeley 연구진은 주요 AI agent benchmark 8종을 감사한 결과, 실제 문제를 풀지 않고도 거의 만점에 가까운 점수를 만들 수 있었다고 밝혔다. 글의 핵심은 leaderboard 수치보다 evaluation 설계와 공격 저항성을 먼저 보라는 것이다.
AI Agent Benchmark Watch: 점수, 도구 사용, judge 신뢰성
Berkeley의 benchmark hacking 분석, IBM VAKRA, AIBuildAI, HWE-Bench, LLM judge reliability 연구를 시간순으로 묶어 agent 평가가 어디서 과장되고 어디서 실제 성능으로 이어지는지 추적합니다.
IBM Research의 VAKRA는 agent benchmark를 static Q&A에서 실행 가능한 tool environment로 옮겼다. 62 domains, 8,000+ locally hosted APIs, 3-7 step reasoning chains가 들어가며, 결과는 agent reliability가 아직 tool demo 수준을 넘기 어렵다는 쪽에 가깝다.
A new arXiv paper puts a hierarchical agent system at the top of MLE-Bench with a 63.1% medal rate. The result matters because the agent handles design, coding, debugging, training, and tuning from a task description plus data.
HWE-Bench moves LLM agent evaluation from isolated HDL tasks to repository-scale hardware repairs. The best agent solved 70.7% overall, but performance fell below 65% on complex SoC-level projects.
새 arXiv 논문은 낮은 평균 오류율 뒤에 LLM judge의 per-document 불안정성이 숨어 있음을 보였다. SummEval에서 문서 33-67%가 directed 3-cycle을 하나 이상 보였고, prediction set width는 absolute error와 강하게 맞물렸다.