Hacker News, maintainer merge rate 기준으로 본 LLM 코딩 성능 정체론을 토론
Original: Are LLM merge rates not getting better? View original →
같은 코딩 에이전트라도 지표에 따라 전혀 다른 그림
2026년 3월 12일 Entropic Thoughts에 올라온 글은 코딩 에이전트 논의의 익숙한 전제를 정면으로 건드렸다. benchmark 점수가 오르면 실제로 merge 가능한 코드도 같은 속도로 좋아지고 있다고 볼 수 있느냐는 문제다. 이 글은 Hacker News에서 크롤링 시점 기준 167점과 155개 댓글을 기록했고, 바로 이틀 전인 3월 10일 METR가 공개한 SWE-bench Verified 검토 결과를 다시 해석하는 방식으로 확산됐다.
METR의 핵심 결과는 꽤 구체적이다. scikit-learn, Sphinx, pytest의 maintainer가 AI가 만든 296개의 pull request를 검토한 결과, golden baseline으로 정규화했을 때 maintainer merge rate는 automated grader 점수보다 평균 약 24 percentage points 낮았다. 실무 감각으로 바꾸면, 50% 성공 horizon이 “test를 통과하는 데 걸리는 시간” 기준 약 50분에서 “maintainer가 merge해 줄 수준” 기준 약 8분으로 축소된다는 뜻이다. 즉, 테스트를 통과한 patch와 실제 저장소에 받아들여질 patch는 같은 것이 아니다.
HN에서 더 크게 논의된 주장
Entropic Thoughts 글은 여기서 한 단계 더 나아간다. METR 차트의 merge-rate 부분만 떼어 보면, 2025년 초 이후에는 뚜렷한 상승 증거가 거의 없어 보인다는 것이다. 글쓴이는 이 해석이 단순 시각적 착시인지 확인하기 위해 leave-one-out cross-validation으로 완만한 상승선과 piecewise constant, 그리고 완전한 constant 모형을 비교했다. 제시된 Brier score는 각각 0.0129, 0.0117, 0.0100으로, 완만한 성장선보다 계단형 혹은 거의 평평한 설명이 데이터를 더 잘 맞춘다고 주장한다.
물론 이것이 곧바로 “코딩 모델 발전이 멈췄다”는 증명은 아니다. METR도 Sonnet 4.5 이후의 더 최신 모델은 같은 방식으로 정밀 측정하지 못했다고 적었다. 하지만 이 비판이 중요한 이유는, AI 업계가 noisy benchmark curve를 현실 효용의 직접 측정치처럼 읽어 온 습관을 찌르기 때문이다.
코딩 에이전트 팀이 받아들여야 할 교훈
운영 관점에서 더 중요한 메시지는 따로 있다. METR의 rejection breakdown을 보면 모델은 실패 유형별로 다른 속도로 개선되고 있다. 일부 진전은 “아예 테스트를 못 통과하던 patch”를 “기능은 맞지만 code quality나 maintainability가 부족한 patch”로 이동시킨다. benchmark optics는 좋아져도 사람 review는 여전히 통과하지 못할 수 있다는 뜻이다.
그래서 이 HN 토론은 단순한 성능 논쟁이 아니라 평가 설계와 제품 전략 문제에 가깝다. mergeability가 느리게 움직이는 동안 test-passing score만 더 빨리 오른다면, coding agent 팀은 더 나은 acceptance metric, 더 강한 elicitation loop, 더 많은 human feedback 없이 benchmark 상승을 곧바로 경제적 가치로 환산해선 안 된다. 요지는 2026년 3월 12일에 LLM 발전이 멈췄다는 선언이 아니다. “merge 가능한 코드가 꾸준히 늘고 있다”는 서사가 생각보다 약한 근거 위에 서 있다는 점이다.
Entropic Thoughts analysis · METR note · Hacker News discussion
Related Articles
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
HN은 이번 글을 벤치마크 보고서보다 사실상의 부고장처럼 읽었다. 누가 몇 점을 찍었는지보다, 오염된 문제와 틀어진 테스트가 코딩 리더보드를 얼마나 빨리 무력화하는지가 더 큰 이야기였다.
HN이 이 글에 몰린 이유는 단순한 benchmark 피로감이 아니다. OpenAI가 SWE-bench Verified를 더는 frontier coding 능력의 신호로 쓰지 않겠다고 밝히자, 댓글도 곧바로 “이제는 점수보다 오염을 봐야 한다”는 쪽으로 쏠렸다.
Comments (0)
No comments yet. Be the first to comment!