SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

LLM과 에이전트 성능표를 볼 때 이제 모델만 의심하면 부족하다. 문제와 채점 로직 자체가 흔들리면 순위도 흔들린다. 2026년 5월 25일 arXiv에 제출되고 5월 26일 개정된 논문은 AI 벤치마크 과제를 자동으로 감사하는 Auto Benchmark Audit, ABA를 제안했다.

연구진은 최신 LLM 벤치마크와 기존 NeurIPS 논문을 포함해 9개 도메인의 168개 벤치마크를 분석했다. ABA는 개별 과제에서 숨은 실행 환경 의존성, 불완전한 명세, 취약한 채점 로직, 잘못된 정답 같은 결함을 찾는다. 논문은 평가된 과제의 25.7% 이상에서 중요한 문제가 발견됐다고 보고했다.

영향은 단순한 정리 작업을 넘어선다. 연구진은 문제가 있는 과제를 걸러내면 SWE-bench Verified와 Terminal-Bench 2의 평균 성능이 각각 9.9%, 9.6% 증가하고 모델 순위도 달라진다고 밝혔다. 즉, 벤치마크의 일부 오류는 모든 모델에 같은 소음으로 작용하지 않는다. 어떤 모델에는 불리하고, 어떤 모델에는 우연히 유리한 조건이 될 수 있다.

이 연구가 중요한 이유는 에이전트 평가가 점점 복잡해지고 있기 때문이다. 단답형 질의응답보다 코드 실행, 터미널 조작, 도구 사용, 환경 설정이 얽힌 과제는 사람이 눈으로 검수하기 어렵다. 도메인 전문가가 만든 문제라도 암묵적 전제나 누락된 환경 정보가 남을 수 있고, 채점 스크립트가 의도한 능력과 다른 것을 재는 경우도 생긴다.

논문은 ABA의 감사 결과를 전문가 검토와 업스트림 PR 같은 제3자 보고로 검증했다고 설명한다. 또 도구와 과제 주석을 공개해 향후 프런티어 벤치마크 개발에 쓰일 수 있도록 하겠다고 밝혔다. 모델 경쟁이 촘촘해질수록 1~2%포인트 차이도 제품 선택과 투자 판단을 흔든다.

이번 결과는 벤치마크를 버리자는 이야기가 아니다. 오히려 벤치마크도 소프트웨어처럼 테스트, 이슈 트래킹, 회귀 검증을 받아야 한다는 쪽에 가깝다. 앞으로 모델 리더보드의 신뢰도는 새 문제를 얼마나 많이 넣느냐보다, 문제 자체를 얼마나 체계적으로 감사하느냐에 더 크게 좌우될 수 있다.

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

깨끗한 코드가 coding agent 비용을 줄이는 이유

Related Articles

SWE-Bench Pro 30% 결함, OpenAI가 coding benchmark 권고 철회

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경
LLM Reddit Apr 27, 2026 1 min read

깨끗한 코드가 coding agent 비용을 줄이는 이유