SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

서브레딧 분위기는 “드디어 공식화됐다”에 가까웠다

이 글에서 LocalLLaMA가 보여준 정서는 충격보다 인정이었다. 제목의 “benchmaxxed”라는 말 자체가 그 분위기를 압축한다. 공개 벤치마크는 결국 목표가 되는 순간 측정기로서 힘을 잃는다는 것, 즉 Goodhart의 법칙이 코딩 에이전트 쪽에서도 그대로 작동한다는 해석이다. 댓글 상위권도 거의 같은 방향으로 모였다. 이미 다들 감으로는 알고 있었고, 이번엔 그 감각에 근거가 붙었다는 반응이다.

계기는 OpenAI가 SWE-bench Verified를 더는 프런티어 코딩 능력 측정값으로 쓰지 않겠다고 적은 분석 글이었다.

OpenAI가 제시한 근거

핵심은 두 가지다. 첫째, 남은 실패가 꼭 모델 한계만을 뜻하지 않는다는 점이다. OpenAI는 최근 6개월 동안 점수가 74.9%에서 80.9%로 올랐지만, 자주 실패하는 문제 묶음을 따로 감사한 결과 검토한 138개 중 59.4%에서 테스트 설계나 문제 설명에 중대한 결함이 있었다고 밝혔다. 둘째는 contamination이다. OpenAI는 여러 프런티어 모델이 프롬프트만으로는 알기 어려운 gold patch나 문제 세부를 재현하는 사례를 제시하며, 학습 중 벤치마크 재료를 본 흔적이 있다고 주장했다.

이 두 가지가 동시에 성립하면 리더보드 해석이 꼬인다. 어떤 실패는 정답도 떨어뜨리고, 어떤 성공은 실제 능력보다 데이터 노출 효과를 더 많이 반영하기 때문이다.

LocalLLaMA가 받아들인 방식

상위 댓글은 거의 방어적이지 않았다. 한 사용자는 이것이 모든 공개 벤치마크의 최종 목적지라고 적었고, 또 다른 사용자는 Goodhart의 법칙 한 줄로 정리했다. 공개된 벤치마크는 결국 학습되고, 그 순간부터 유효성을 잃는다는 주장이다. 몇몇은 그래서 문제를 계속 갈아끼우는 SWE-rebench 같은 방식이 필요하다고 연결했다. 물론 “벤더들이 비교 불리해지니 새 벤치마크로 옮긴 것 아니냐”는 의심도 남았다. 그래도 더 넓은 합의는 분명했다. 모델이 강해질수록, 널리 크롤링된 공개 저장소 기반 벤치마크는 빠르게 낡는다.

왜 중요한가

이건 리더보드 하나의 문제가 아니다. 코딩 에이전트 경쟁에서 벤치마크 위생은 이제 연구 문제이면서 동시에 제품 문제, 마케팅 문제다. 모델이 테스트, 이슈 텍스트, 심지어 gold patch 흔적까지 학습했을 가능성이 있다면 높은 점수는 구매자에게 거의 아무 말도 못 한다. LocalLLaMA가 이 글에 강하게 반응한 이유도 여기에 있다. 사용자들은 이미 의심하고 있었고, OpenAI 문서는 그 의심을 더 깔끔한 숫자와 사례로 묶어준 셈이다.

출처: OpenAI 분석 글 · r/LocalLLaMA 스레드

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

서브레딧 분위기는 “드디어 공식화됐다”에 가까웠다

OpenAI가 제시한 근거

LocalLLaMA가 받아들인 방식

왜 중요한가

Related Articles

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only

SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제
LocalLLaMA를 흔든 건 단순한 Qwen 점수 상승이 아니었다. 같은 계열 로컬 모델이 scaffold 변경만으로 19%에서 45%, 다시 78.7%까지 올라갔다는 서사가 붙으면서, 벤치마크 비교 자체를 다시 봐야 한다는 분위기가 퍼졌다.

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only

SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나