SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장
Original: Automated Benchmark Auditing for AI Agents and Large Language Models View original →
LLM과 에이전트 성능표를 볼 때 이제 모델만 의심하면 부족하다. 문제와 채점 로직 자체가 흔들리면 순위도 흔들린다. 2026년 5월 25일 arXiv에 제출되고 5월 26일 개정된 논문은 AI 벤치마크 과제를 자동으로 감사하는 Auto Benchmark Audit, ABA를 제안했다.
연구진은 최신 LLM 벤치마크와 기존 NeurIPS 논문을 포함해 9개 도메인의 168개 벤치마크를 분석했다. ABA는 개별 과제에서 숨은 실행 환경 의존성, 불완전한 명세, 취약한 채점 로직, 잘못된 정답 같은 결함을 찾는다. 논문은 평가된 과제의 25.7% 이상에서 중요한 문제가 발견됐다고 보고했다.
영향은 단순한 정리 작업을 넘어선다. 연구진은 문제가 있는 과제를 걸러내면 SWE-bench Verified와 Terminal-Bench 2의 평균 성능이 각각 9.9%, 9.6% 증가하고 모델 순위도 달라진다고 밝혔다. 즉, 벤치마크의 일부 오류는 모든 모델에 같은 소음으로 작용하지 않는다. 어떤 모델에는 불리하고, 어떤 모델에는 우연히 유리한 조건이 될 수 있다.
이 연구가 중요한 이유는 에이전트 평가가 점점 복잡해지고 있기 때문이다. 단답형 질의응답보다 코드 실행, 터미널 조작, 도구 사용, 환경 설정이 얽힌 과제는 사람이 눈으로 검수하기 어렵다. 도메인 전문가가 만든 문제라도 암묵적 전제나 누락된 환경 정보가 남을 수 있고, 채점 스크립트가 의도한 능력과 다른 것을 재는 경우도 생긴다.
논문은 ABA의 감사 결과를 전문가 검토와 업스트림 PR 같은 제3자 보고로 검증했다고 설명한다. 또 도구와 과제 주석을 공개해 향후 프런티어 벤치마크 개발에 쓰일 수 있도록 하겠다고 밝혔다. 모델 경쟁이 촘촘해질수록 1~2%포인트 차이도 제품 선택과 투자 판단을 흔든다.
이번 결과는 벤치마크를 버리자는 이야기가 아니다. 오히려 벤치마크도 소프트웨어처럼 테스트, 이슈 트래킹, 회귀 검증을 받아야 한다는 쪽에 가깝다. 앞으로 모델 리더보드의 신뢰도는 새 문제를 얼마나 많이 넣느냐보다, 문제 자체를 얼마나 체계적으로 감사하느냐에 더 크게 좌우될 수 있다.
Related Articles
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
관심은 병렬 agent 자체보다 “검토 가능한 단위로 쪼갤 수 있나”와 local-first 설계에 모였다.
이 릴리스가 큰 이유는 대형 모델 한 묶음이 닫힌 API가 아니라 느슨한 라이선스로 바로 풀렸기 때문이다. MiMo-V2.5는 1M 토큰 컨텍스트, 상용 사용과 파인튜닝을 허용하는 MIT 라이선스, 그리고 GDPVal-AA·ClawEval 오픈모델 1위를 내세운 Pro 버전을 함께 내놨다.
Comments (0)
No comments yet. Be the first to comment!