Hacker News, maintainer merge rate 기준으로 본 LLM 코딩 성능 정체론을 토론
Original: Are LLM merge rates not getting better? View original →
같은 코딩 에이전트라도 지표에 따라 전혀 다른 그림
2026년 3월 12일 Entropic Thoughts에 올라온 글은 코딩 에이전트 논의의 익숙한 전제를 정면으로 건드렸다. benchmark 점수가 오르면 실제로 merge 가능한 코드도 같은 속도로 좋아지고 있다고 볼 수 있느냐는 문제다. 이 글은 Hacker News에서 크롤링 시점 기준 167점과 155개 댓글을 기록했고, 바로 이틀 전인 3월 10일 METR가 공개한 SWE-bench Verified 검토 결과를 다시 해석하는 방식으로 확산됐다.
METR의 핵심 결과는 꽤 구체적이다. scikit-learn, Sphinx, pytest의 maintainer가 AI가 만든 296개의 pull request를 검토한 결과, golden baseline으로 정규화했을 때 maintainer merge rate는 automated grader 점수보다 평균 약 24 percentage points 낮았다. 실무 감각으로 바꾸면, 50% 성공 horizon이 “test를 통과하는 데 걸리는 시간” 기준 약 50분에서 “maintainer가 merge해 줄 수준” 기준 약 8분으로 축소된다는 뜻이다. 즉, 테스트를 통과한 patch와 실제 저장소에 받아들여질 patch는 같은 것이 아니다.
HN에서 더 크게 논의된 주장
Entropic Thoughts 글은 여기서 한 단계 더 나아간다. METR 차트의 merge-rate 부분만 떼어 보면, 2025년 초 이후에는 뚜렷한 상승 증거가 거의 없어 보인다는 것이다. 글쓴이는 이 해석이 단순 시각적 착시인지 확인하기 위해 leave-one-out cross-validation으로 완만한 상승선과 piecewise constant, 그리고 완전한 constant 모형을 비교했다. 제시된 Brier score는 각각 0.0129, 0.0117, 0.0100으로, 완만한 성장선보다 계단형 혹은 거의 평평한 설명이 데이터를 더 잘 맞춘다고 주장한다.
물론 이것이 곧바로 “코딩 모델 발전이 멈췄다”는 증명은 아니다. METR도 Sonnet 4.5 이후의 더 최신 모델은 같은 방식으로 정밀 측정하지 못했다고 적었다. 하지만 이 비판이 중요한 이유는, AI 업계가 noisy benchmark curve를 현실 효용의 직접 측정치처럼 읽어 온 습관을 찌르기 때문이다.
코딩 에이전트 팀이 받아들여야 할 교훈
운영 관점에서 더 중요한 메시지는 따로 있다. METR의 rejection breakdown을 보면 모델은 실패 유형별로 다른 속도로 개선되고 있다. 일부 진전은 “아예 테스트를 못 통과하던 patch”를 “기능은 맞지만 code quality나 maintainability가 부족한 patch”로 이동시킨다. benchmark optics는 좋아져도 사람 review는 여전히 통과하지 못할 수 있다는 뜻이다.
그래서 이 HN 토론은 단순한 성능 논쟁이 아니라 평가 설계와 제품 전략 문제에 가깝다. mergeability가 느리게 움직이는 동안 test-passing score만 더 빨리 오른다면, coding agent 팀은 더 나은 acceptance metric, 더 강한 elicitation loop, 더 많은 human feedback 없이 benchmark 상승을 곧바로 경제적 가치로 환산해선 안 된다. 요지는 2026년 3월 12일에 LLM 발전이 멈췄다는 선언이 아니다. “merge 가능한 코드가 꾸준히 늘고 있다”는 서사가 생각보다 약한 근거 위에 서 있다는 점이다.
Entropic Thoughts analysis · METR note · Hacker News discussion
Related Articles
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.
METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.
r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.
Comments (0)
No comments yet. Be the first to comment!