LocalLLaMA 실험: Qwen3.5-35B-A3B, SWE-bench Verified Hard 37.8% 보고
Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →
게시글이 보고한 실험 설정
2026년 3월 4일 r/LocalLLaMA 글에서는 Qwen3.5-35B-A3B(작성자 설명상 3B active params MoE)를 vLLM으로 자체 호스팅하고 SWE-bench Verified 과제를 평가한 결과를 공유했다. 작성자의 핵심 주장은 “모델 크기 자체보다 에이전트 루프 설계가 성능을 크게 좌우한다”는 점이다. 동일 harness 기준 Hard(45개 과제) 성능이 22.2%에서 37.8%로 올라갔다고 제시했다.
게시글에는 전략별 표와 함께 코드·설정·로그 저장소 링크가 포함되어 있어, 최소한의 재검토 기반은 제공된다.
개선 포인트: file_edit마다 즉시 검증
핵심 변경은 단순하다. 에이전트가 file_edit를 수행할 때마다 바로 짧은 검증 스크립트를 실행하도록 강제하는 방식이다. 보고된 수치에서 verify-at-last는 Hard 점수를 22.2%에서 33.3%로 올렸고, verify-on-edit는 37.8%까지 끌어올렸다. 전체 500개 과제에서는 baseline 64%, verify-at-last 67%가 제시됐다.
작성자는 Hard 분할 기준 Claude Opus 4.6 참고값 40.0%도 함께 제시하며, 상대적으로 작은 active parameter 구성에서도 격차를 줄일 수 있다고 해석했다.
커뮤니티의 경고: 벤치마크 오염 가능성
상위 댓글에서는 SWE-bench 계열의 반복 논점인 contamination 가능성이 다시 제기됐다. 특히 과제가 오래된 만큼 신규 모델 학습 데이터에 누출된 신호가 포함됐을 수 있으니, 더 최신 과제로 재검증해야 한다는 의견이 나왔다. 이는 실험 자체를 부정한다기보다 절대 점수 해석의 신뢰구간을 보수적으로 보라는 의미다.
코딩 에이전트 운영 관점 시사점
실무적으로는 복잡한 탐색 기법보다 “수정-검증” 규율 강화가 먼저라는 메시지가 분명하다. 작성자는 MCTS/트리서치 계열은 오히려 성능이 떨어졌다고 적었고, 단순 검증 루프가 더 높은 효율을 보였다고 주장했다. 코드 에이전트를 운영하는 팀이라면 대규모 구조 변경보다, 편집 직후 검증 자동화와 로그 가시성부터 고도화하는 접근이 비용 대비 효과가 클 수 있다.
Related Articles
LocalLLaMA 반응은 놀람보다 체념에 가까웠다. 결국 공개 벤치마크는 이렇게 무너진다는 분위기였다. 이번엔 오염과 flawed test가 숫자로 정리되면서, 기존 자랑 포인트가 더는 안정적으로 보이지 않게 됐다.
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
Comments (0)
No comments yet. Be the first to comment!