Hacker News가 본 SWE-bench 합격과 mergeable code의 거리
Original: Many SWE-bench-Passing PRs would not be merged View original →
왜 HN이 이 글에 반응했나
Hacker News thread가 크게 반응한 이유는 이 글이 "SWE-bench Verified를 통과하면 coding agent가 production에 가까워졌다"는 편한 해석을 정면으로 깨기 때문이다. METR note는 test harness를 만족한 patch라도 maintainer 입장에서는 불필요한 abstraction을 늘리거나, 기존 repo 관례를 어기거나, review 부담을 키울 수 있다고 설명한다. 즉 benchmark win과 mergeable code는 아직 같은 뜻이 아니다.
METR은 3개 repo의 active maintainer 4명에게 AI-generated PR 296개를 검토하게 했다. 핵심 결과는 분명하다. maintainer merge decision은 automated grader보다 평균 24.2 percentage points 낮았고, 공개 description에서도 test-passing PR의 roughly half는 main branch에 merge되지 않을 것이라고 요약한다. 저자들은 raw benchmark score가 올라가더라도 maintainer가 실제로 받아들일 patch quality의 개선 속도는 더 느릴 수 있다고 본다.
HN discussion이 덧붙인 포인트
HN comments는 practical issue에 집중했다. tests는 보통 "문제를 풀었는가"를 보지만, 팀이 원하는 방식으로 "그 문제만 풀었는가"는 잘 보지 못한다는 것이다. commenters는 scope creep, 과한 layering, style mismatch, repo-local convention 무시를 반복해서 언급했다. benchmark가 틀렸다는 주장보다, benchmark 하나만으로는 운영 현실을 설명할 수 없다는 지적에 가깝다.
그래서 이 글의 함의는 anti-benchmark가 아니다. coding agent를 쓰는 팀이라면 repo-specific eval, diff size guardrail, human sign-off 같은 두 번째 review layer가 필요하다는 뜻이다. HN이 받아들인 결론은 단순하다. 이제 "tests passed"는 merge decision의 종착점이 아니라 최소 출발선에 가깝다.
Related Articles
HN이 이 글에 몰린 이유는 단순한 benchmark 피로감이 아니다. OpenAI가 SWE-bench Verified를 더는 frontier coding 능력의 신호로 쓰지 않겠다고 밝히자, 댓글도 곧바로 “이제는 점수보다 오염을 봐야 한다”는 쪽으로 쏠렸다.
Hacker News는 Anthropic 글을 “모델이 망가졌다”보다 “기본값과 프롬프트, 캐시 처리 방식이 체감 품질을 바꿨다”는 고백으로 읽었다. 2026년 4월 24일 크롤링 시점 기준 스레드는 727점, 543댓글이었다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
Comments (0)
No comments yet. Be the first to comment!