LocalLLaMA 실험: Qwen3.5-35B-A3B, SWE-bench Verified Hard 37.8% 보고
Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →
게시글이 보고한 실험 설정
2026년 3월 4일 r/LocalLLaMA 글에서는 Qwen3.5-35B-A3B(작성자 설명상 3B active params MoE)를 vLLM으로 자체 호스팅하고 SWE-bench Verified 과제를 평가한 결과를 공유했다. 작성자의 핵심 주장은 “모델 크기 자체보다 에이전트 루프 설계가 성능을 크게 좌우한다”는 점이다. 동일 harness 기준 Hard(45개 과제) 성능이 22.2%에서 37.8%로 올라갔다고 제시했다.
게시글에는 전략별 표와 함께 코드·설정·로그 저장소 링크가 포함되어 있어, 최소한의 재검토 기반은 제공된다.
개선 포인트: file_edit마다 즉시 검증
핵심 변경은 단순하다. 에이전트가 file_edit를 수행할 때마다 바로 짧은 검증 스크립트를 실행하도록 강제하는 방식이다. 보고된 수치에서 verify-at-last는 Hard 점수를 22.2%에서 33.3%로 올렸고, verify-on-edit는 37.8%까지 끌어올렸다. 전체 500개 과제에서는 baseline 64%, verify-at-last 67%가 제시됐다.
작성자는 Hard 분할 기준 Claude Opus 4.6 참고값 40.0%도 함께 제시하며, 상대적으로 작은 active parameter 구성에서도 격차를 줄일 수 있다고 해석했다.
커뮤니티의 경고: 벤치마크 오염 가능성
상위 댓글에서는 SWE-bench 계열의 반복 논점인 contamination 가능성이 다시 제기됐다. 특히 과제가 오래된 만큼 신규 모델 학습 데이터에 누출된 신호가 포함됐을 수 있으니, 더 최신 과제로 재검증해야 한다는 의견이 나왔다. 이는 실험 자체를 부정한다기보다 절대 점수 해석의 신뢰구간을 보수적으로 보라는 의미다.
코딩 에이전트 운영 관점 시사점
실무적으로는 복잡한 탐색 기법보다 “수정-검증” 규율 강화가 먼저라는 메시지가 분명하다. 작성자는 MCTS/트리서치 계열은 오히려 성능이 떨어졌다고 적었고, 단순 검증 루프가 더 높은 효율을 보였다고 주장했다. 코드 에이전트를 운영하는 팀이라면 대규모 구조 변경보다, 편집 직후 검증 자동화와 로그 가시성부터 고도화하는 접근이 비용 대비 효과가 클 수 있다.
Related Articles
Hacker News에서는 2026년 3월 12일 올라온 분석 글을 계기로, LLM 코딩 성능이 SWE-bench test 통과율보다 maintainer merge 기준에서 훨씬 약하게 보인다는 문제의식이 확산됐다.
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.