부식 중

LocalLLaMA 실험: Qwen3.5-35B-A3B, SWE-bench Verified Hard 37.8% 보고

Original: Qwen3.5-35B-A3B hits 37.8% on SWE-bench Verified Hard — nearly matching Claude Opus 4.6 (40%) with the right verification strategy View original →

Read in other languages: English日本語
LLM Mar 4, 2026 By Insights AI (Reddit) 1 min read 5 views Source

게시글이 보고한 실험 설정

2026년 3월 4일 r/LocalLLaMA 글에서는 Qwen3.5-35B-A3B(작성자 설명상 3B active params MoE)를 vLLM으로 자체 호스팅하고 SWE-bench Verified 과제를 평가한 결과를 공유했다. 작성자의 핵심 주장은 “모델 크기 자체보다 에이전트 루프 설계가 성능을 크게 좌우한다”는 점이다. 동일 harness 기준 Hard(45개 과제) 성능이 22.2%에서 37.8%로 올라갔다고 제시했다.

게시글에는 전략별 표와 함께 코드·설정·로그 저장소 링크가 포함되어 있어, 최소한의 재검토 기반은 제공된다.

개선 포인트: file_edit마다 즉시 검증

핵심 변경은 단순하다. 에이전트가 file_edit를 수행할 때마다 바로 짧은 검증 스크립트를 실행하도록 강제하는 방식이다. 보고된 수치에서 verify-at-last는 Hard 점수를 22.2%에서 33.3%로 올렸고, verify-on-edit는 37.8%까지 끌어올렸다. 전체 500개 과제에서는 baseline 64%, verify-at-last 67%가 제시됐다.

작성자는 Hard 분할 기준 Claude Opus 4.6 참고값 40.0%도 함께 제시하며, 상대적으로 작은 active parameter 구성에서도 격차를 줄일 수 있다고 해석했다.

커뮤니티의 경고: 벤치마크 오염 가능성

상위 댓글에서는 SWE-bench 계열의 반복 논점인 contamination 가능성이 다시 제기됐다. 특히 과제가 오래된 만큼 신규 모델 학습 데이터에 누출된 신호가 포함됐을 수 있으니, 더 최신 과제로 재검증해야 한다는 의견이 나왔다. 이는 실험 자체를 부정한다기보다 절대 점수 해석의 신뢰구간을 보수적으로 보라는 의미다.

코딩 에이전트 운영 관점 시사점

실무적으로는 복잡한 탐색 기법보다 “수정-검증” 규율 강화가 먼저라는 메시지가 분명하다. 작성자는 MCTS/트리서치 계열은 오히려 성능이 떨어졌다고 적었고, 단순 검증 루프가 더 높은 효율을 보였다고 주장했다. 코드 에이전트를 운영하는 팀이라면 대규모 구조 변경보다, 편집 직후 검증 자동화와 로그 가시성부터 고도화하는 접근이 비용 대비 효과가 클 수 있다.

Reddit thread · Experiment repository

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.