#swe-bench

LLM May 27, 2026 1 min read

SWE-bench 순위도 흔들린 25.7% 결함, 벤치마크 감사 도구 등장

벤치마크 점수 경쟁의 약한 고리가 문제 자체라는 연구가 나왔다. ABA는 168개 벤치마크를 훑어 평가 과제의 25.7% 이상에서 치명적 결함을 찾았고, 필터링 뒤 SWE-bench Verified 평균 성능은 9.9% 달라졌다.

#benchmarks #swe-bench #agents

LLM Hacker News Apr 28, 2026 1 min read

SWE-bench Verified 사실상 퇴장, HN이 본 핵심은 점수보다 오염

HN은 이번 글을 벤치마크 보고서보다 사실상의 부고장처럼 읽었다. 누가 몇 점을 찍었는지보다, 오염된 문제와 틀어진 테스트가 코딩 리더보드를 얼마나 빨리 무력화하는지가 더 큰 이야기였다.

#openai #swe-bench #evals

LLM Reddit Apr 27, 2026 1 min read

SWE-bench Verified 사실상 수명 끝? LocalLLaMA가 benchmaxxed라 부른 배경

LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.

#swe-bench #benchmarks #contamination

AI X/Twitter Apr 17, 2026 1 min read

Qwen3.6-35B-A3B, 35B MoE 오픈가중치와 3B 활성 파라미터·Apache 2.0 공개

중요한 점은 Alibaba가 multimodal coding model을 API 전용이 아니라 open weights로 풀었다는 데 있다. 트윗은 Qwen3.6-35B-A3B가 35B total parameters, 3B active parameters, Apache 2.0 license를 갖췄다고 적었고, 블로그는 SWE-bench Verified 73.4와 Terminal-Bench 2.0 51.5를 제시했다.

#qwen #open-weights #moe

LLM Hacker News Apr 8, 2026 1 min read

Hacker News가 본 GLM-5.1, long-horizon agentic engineering을 겨냥하다

Hacker News에서 주목한 Z.ai의 GLM-5.1은 one-shot 성능보다 오래 버티는 agentic work를 전면에 세운다. Z.ai는 SWE-Bench Pro 58.4, NL2Repo 42.7, Terminal Bench 2.0 66.5를 제시했고, 수백 번 iteration과 수천 번 tool call을 거쳐 계속 개선되는 long-horizon 실험도 함께 공개했다.

#glm-5.1 #agentic-coding #swe-bench

LLM Hacker News Mar 14, 2026 2 min read

Hacker News, maintainer merge rate 기준으로 본 LLM 코딩 성능 정체론을 토론

Hacker News에서는 2026년 3월 12일 올라온 분석 글을 계기로, LLM 코딩 성능이 SWE-bench test 통과율보다 maintainer merge 기준에서 훨씬 약하게 보인다는 문제의식이 확산됐다.

#swe-bench #coding-agents #evaluation

LLM Hacker News Mar 12, 2026 1 min read

Hacker News가 본 SWE-bench 합격과 mergeable code의 거리

METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.

#swe-bench #coding-agents #evals

LLM Reddit Mar 4, 2026 1 min read

LocalLLaMA 실험: Qwen3.5-35B-A3B, SWE-bench Verified Hard 37.8% 보고

r/LocalLLaMA 게시글은 “매 편집 후 검증” 루프만으로 Qwen3.5-35B-A3B 점수가 22.2%에서 37.8%로 상승했다고 보고하며, Claude Opus 4.6 기준 40%와의 격차 축소를 강조했다.

#swe-bench #coding-agents #qwen

LLM Reddit Feb 27, 2026 1 min read

OpenAI, SWE-bench Verified 평가 중단: 최소 16.4% 테스트 결함 지적

Reddit r/singularity에서 주목받은 게시물은 OpenAI가 SWE-bench Verified 테스트 품질 문제를 이유로 해당 벤치마크 평가를 더 이상 사용하지 않겠다고 밝힌 소식을 공유했다. 최소 16.4% 결함 지적은 LLM 코딩 벤치마크 해석 방식에 직접적인 영향을 준다.

#openai #swe-bench #benchmark

LLM Hacker News Feb 17, 2026 1 min read

HN 화제: AGENTS.md가 코딩 에이전트 성능을 항상 높이지는 않는다는 arXiv 분석

Hacker News에서 주목받은 arXiv:2602.11988은 AGENTS.md 같은 저장소 컨텍스트 파일이 코딩 에이전트의 작업 성공률을 오히려 낮추고 추론 비용은 20% 이상 늘릴 수 있다고 보고했다.

#coding-agents #agents-md #swe-bench

LLM Reddit Feb 14, 2026 1 min read

SWE-rebench 2026년 1월 결과, 코딩 에이전트 경쟁이 상위권에서 초접전으로 전개

LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.

#benchmark #coding-agents #swe-bench