SWE-bench Verified 사실상 퇴장, HN이 본 핵심은 점수보다 오염

HN에서 이 글은 새 점수 공개보다 "이 벤치마크는 이제 끝났다"는 선언에 가깝게 받아들여졌다. OpenAI의 분석은 SWE-bench Verified가 더 이상 frontier 코딩 능력을 재는 데 적합하지 않다고 말한다. 핵심 이유는 두 가지다. 테스트가 정답을 틀렸다고 처리하는 경우가 많고, 모델이 이미 문제나 해답 조각을 학습에서 봤을 가능성이 높다는 점이다. HN이 바로 집어든 것도 이 두 축이었다.

OpenAI는 o3가 안정적으로 풀지 못한 138개 문제를 감사했고, 그중 59.4%에서 테스트 설계나 문제 설명에 중대한 결함을 찾았다고 밝혔다. 35.5%는 함수형으로 맞는 해답도 떨어뜨리는 narrow test였고, 18.8%는 문제 설명에 없는 추가 기능까지 요구하는 wide test였다. 여기에 contamination 문제가 겹친다. 분석에 따르면 frontier 모델들은 원래의 gold patch나 문제 문구의 특이한 세부를 재현할 수 있었고, 이는 학습 과정에서 이미 비슷한 정보에 노출됐을 가능성을 시사한다. 그래서 점수 상승이 실제 소프트웨어 엔지니어링 능력의 향상보다, 벤치마크에 얼마나 익숙한지를 반영한다는 판단이 나온다.

HN 토론은 여기서 더 넓어졌다. SWE-bench 공동 제작자 중 한 명은 댓글에서 Verified가 93.9%까지 포화됐다고 짚으면서도, Multilingual과 Multimodal 버전은 아직 포화되지 않았다고 말했다. 다른 댓글들은 이런 유명 평가셋은 공개되는 순간부터 훈련 데이터와 마케팅 목표가 된다고 냉소적으로 정리했다. 몇몇 사용자는 높은 SWE-bench 점수를 받은 PR이라도 실제 리뷰를 통과하기 어려운 경우가 많다고 지적했다. 리더보드가 현실 개발 현장을 대신할 수 없다는 불만이 다시 튀어나온 셈이다.

그래도 HN이 평가 자체를 버리자는 쪽은 아니었다. 분위기는 오히려 정반대였다. 코딩 모델의 실력을 계속 보려면, 누구나 학습하고 튜닝하고 홍보에 써먹는 단일 유명 벤치마크에 기대서는 안 된다는 쪽이다. OpenAI는 SWE-bench Pro를 권장했고, HN도 다음 기준으로 이동해야 한다는 데는 대체로 동의했다. 다만 다음 벤치마크도 같은 길을 걷지 않으리라는 믿음은 거의 없었다. 이번 스레드의 핵심은 점수표보다, 평가가 어떻게 빨리 게임이 되는지에 있었다.

SWE-bench Verified 사실상 퇴장, HN이 본 핵심은 점수보다 오염

Related Articles

SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Claude Code postmortem에 HN이 꽂힌 이유, 모델이 아니라 제품 레이어

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

Comments (0)

Leave a Comment

Related Articles

SWE-bench Verified, 왜 HN이 이제 못 믿겠다고 했나

Claude Code postmortem에 HN이 꽂힌 이유, 모델이 아니라 제품 레이어
Hacker News는 Anthropic 글을 “모델이 망가졌다”보다 “기본값과 프롬프트, 캐시 처리 방식이 체감 품질을 바꿨다”는 고백으로 읽었다. 2026년 4월 24일 크롤링 시점 기준 스레드는 727점, 543댓글이었다.

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경