LocalLLaMA 실험: Qwen3.5-35B-A3B, SWE-bench Verified Hard 37.8% 보고
Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →
게시글이 보고한 실험 설정
2026년 3월 4일 r/LocalLLaMA 글에서는 Qwen3.5-35B-A3B(작성자 설명상 3B active params MoE)를 vLLM으로 자체 호스팅하고 SWE-bench Verified 과제를 평가한 결과를 공유했다. 작성자의 핵심 주장은 “모델 크기 자체보다 에이전트 루프 설계가 성능을 크게 좌우한다”는 점이다. 동일 harness 기준 Hard(45개 과제) 성능이 22.2%에서 37.8%로 올라갔다고 제시했다.
게시글에는 전략별 표와 함께 코드·설정·로그 저장소 링크가 포함되어 있어, 최소한의 재검토 기반은 제공된다.
개선 포인트: file_edit마다 즉시 검증
핵심 변경은 단순하다. 에이전트가 file_edit를 수행할 때마다 바로 짧은 검증 스크립트를 실행하도록 강제하는 방식이다. 보고된 수치에서 verify-at-last는 Hard 점수를 22.2%에서 33.3%로 올렸고, verify-on-edit는 37.8%까지 끌어올렸다. 전체 500개 과제에서는 baseline 64%, verify-at-last 67%가 제시됐다.
작성자는 Hard 분할 기준 Claude Opus 4.6 참고값 40.0%도 함께 제시하며, 상대적으로 작은 active parameter 구성에서도 격차를 줄일 수 있다고 해석했다.
커뮤니티의 경고: 벤치마크 오염 가능성
상위 댓글에서는 SWE-bench 계열의 반복 논점인 contamination 가능성이 다시 제기됐다. 특히 과제가 오래된 만큼 신규 모델 학습 데이터에 누출된 신호가 포함됐을 수 있으니, 더 최신 과제로 재검증해야 한다는 의견이 나왔다. 이는 실험 자체를 부정한다기보다 절대 점수 해석의 신뢰구간을 보수적으로 보라는 의미다.
코딩 에이전트 운영 관점 시사점
실무적으로는 복잡한 탐색 기법보다 “수정-검증” 규율 강화가 먼저라는 메시지가 분명하다. 작성자는 MCTS/트리서치 계열은 오히려 성능이 떨어졌다고 적었고, 단순 검증 루프가 더 높은 효율을 보였다고 주장했다. 코드 에이전트를 운영하는 팀이라면 대규모 구조 변경보다, 편집 직후 검증 자동화와 로그 가시성부터 고도화하는 접근이 비용 대비 효과가 클 수 있다.
Related Articles
LocalLLaMA 토론에서 공유된 SWE-rebench 1월 결과는 Claude Code 선두 속에 상위 모델 격차 축소와 오픈 모델 추격을 보여줬다.
r/LocalLLaMA에서는 Qwen3.5-9B 기반의 open coding agent인 OmniCoder-9B가 frontier agent traces를 학습했다는 점에 관심이 모이고 있다.
METR의 March 10, 2026 note는 최근 agent가 만든 SWE-bench Verified PR 가운데 test를 통과해도 절반가량은 maintainer review를 넘기지 못한다고 본다. HN은 이를 benchmark score가 아직 scope control, code quality, repo fit을 대신하지 못한다는 경고로 읽었다.
Comments (0)
No comments yet. Be the first to comment!