벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.
#swe-bench
RSS FeedHN은 이번 글을 벤치마크 보고서보다 사실상의 부고장처럼 읽었다. 누가 몇 점을 찍었는지보다, 오염된 문제와 틀어진 테스트가 코딩 리더보드를 얼마나 빨리 무력화하는지가 더 큰 이야기였다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.
Hacker News에서 주목한 Z.ai의 GLM-5.1은 one-shot 성능보다 오래 버티는 agentic work를 전면에 세운다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5를 제시했고, 수백 번 iteration과 수천 번 tool call을 거쳐 계속 개선되는 long-horizon 실험도 함께 공개했다.
Hacker News에서는 2026년 3월 12일 올라온 분석 글을 계기로, LLM 코딩 성능이 SWE-bench test 통과율보다 maintainer merge 기준에서 훨씬 약하게 보인다는 문제의식이 확산됐다.
METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.
r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.
Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.
Hacker News에서 주목받은 arXiv:2602.11988은 AGENTS.md 같은 저장소 컨텍스트 파일이 코딩 에이전트의 작업 성공률을 오히려 낮추고 추론 비용은 20% 이상 늘릴 수 있다고 보고했다.
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.