Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

왜 이 Reddit 글이 먹혔나

이 스레드가 커진 이유는 “Qwen이 또 잘 나왔다” 수준이 아니었다. LocalLLaMA는 원래 로컬 모델 체감 성능과 benchmark gap 사이의 괴리를 계속 얘기해 왔는데, 이번 글은 그 불만에 숫자를 붙였다. 작성자는 이전 실험에서 같은 로컬 Qwen 계열 모델이 scaffold 변경으로 약 19.11%에서 45.56%까지 올라갔다고 보여 준 뒤, 이번에는 Qwen3.6-35B-A3B와 little-coder 조합으로 Aider Polyglot 225문제에서 78.67%를 기록했다고 적었다. 크롤링 시점 스레드는 689점, 167댓글이었고, 상위 댓글의 핵심도 분명했다. 19에서 45, 78까지의 이동이 사실이라면 scaffold를 통제하지 않은 benchmark comparison을 그대로 믿기 어렵다는 것이다.

링크된 문서가 공개한 수치

좋았던 점은 링크된 benchmark 문서가 꽤 구체적이라는 것이다. 문서는 Qwen3.6-35B-A3B를 35B total / 3B active MoE로 설명하고, Q4_K_M GGUF 파일 크기를 약 22.1GB라고 적는다. 서빙은 llama.cpp, 하드웨어는 RTX 5070 Laptop 8GB VRAM과 i9-14900HX, 32GB RAM 조합이다. 핵심 결과는 177 / 225 solve, 즉 78.67%. 문서 기준으로는 공개 Aider Polyglot 상위 10위권 밴드 안쪽이다. 언어별 수치도 공개됐다. JavaScript 89.8%, Python 88.2%, C++ 84.6%, Java 76.6%, Go 74.4%, Rust 53.3%다.

왜 모델보다 scaffold가 화제가 됐나

흥미로운 부분은 개선 폭의 성격이다. 문서는 대부분의 상승이 retry가 아니라 1차 시도 통과에서 나왔다고 적는다. 즉, 실패를 주워 담는 구조보다 처음부터 모델이 더 잘 움직이게 만드는 scaffold 효과가 더 컸다는 뜻이다. 이전 little-coder 글에서는 이미 whole-file overwrite를 막는 write guard, bounded thinking, explicit workspace discovery, 작은 안내 조각만 주입하는 방식 같은 설계를 설명한 바 있다. LocalLLaMA 댓글도 바로 그 포인트를 집었다. “도구와 환경이 모델만큼 중요해지는 것 같다”, “로컬 모델에 맞는 harness가 frontier 가정 위에 세워진 scaffold보다 더 중요할 수 있다”는 반응이 상위권에 올라왔다.

왜 중요한가

이번 글의 의미는 특정 repo 하나가 리더보드를 끝냈다는 데 있지 않다. 더 중요한 건 scaffold 선택이 이제 부차적 구현이 아니라 1급 변수처럼 취급되기 시작했다는 점이다. 소비자급에 가까운 하드웨어에서 돌아가는 로컬 모델이, 모델 가중치 변경보다 harness 최적화로 이 정도까지 올라간다면, 기존의 “작은 로컬 모델 대 최상위 클라우드 모델” 비교 상당수는 wrapper mismatch를 함께 재고해야 한다. LocalLLaMA가 열광한 이유도 바로 여기 있다. 다들 “Qwen 최고”보다 “우리가 지금까지 wrapper까지 모델 성능으로 착각한 것 아닌가”에 더 크게 반응했다.

출처: little-coder benchmark doc · supporting write-up · Reddit 토론

Qwen3.6-35B보다 더 크게 번진 것, LocalLLaMA가 본 scaffold 문제

왜 이 Reddit 글이 먹혔나

링크된 문서가 공개한 수치

왜 모델보다 scaffold가 화제가 됐나

왜 중요한가

Related Articles

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다

Comments (0)

Leave a Comment

Related Articles

Qwen3.6-Max-Preview, coding benchmark 상위권에도 cloud-only

Qwen3.6의 pelican test, HN을 benchmark 논쟁으로 끌어들였다
LLM Hacker News Apr 17, 2026 2 min read

Qwen3.6 GGUF 논쟁, r/LocalLLaMA는 “어떤 quant를 돌릴 것인가”로 내려갔다