LocalLLaMA의 Qwen3.6 열기: 성능보다 설정이 먼저였다
Original: qwen3.6 performance jump is real, just make sure you have it properly configured View original →
벤치마크가 아니라 사용자가 만진 설정 이야기
r/LocalLLaMA의 Qwen3.6 스레드는 새 모델을 향한 환호만으로 올라간 글이 아니었다. 작성자는 자신이 보통 Opus와 Codex에 맡기던 workload를 Qwen3.6으로 돌려봤고, "그 수준은 아니지만 유용성의 장벽을 넘었다"고 정리했다. 환경도 구체적이었다. M5 Max 128GB, 8bit, 3K PP, 100 TG, oMLX와 Pi.dev 조합이라는 설명이 붙었다. 커뮤니티가 붙잡은 핵심은 성능 주장보다 설정이었다. 작성자는 preserve_thinking을 켜야 한다고 강조했다.
이런 종류의 글이 LocalLLaMA에서 힘을 얻는 이유는 명확하다. local LLM 사용자는 모델 카드의 평균 점수보다 실제 구동 조건에 더 민감하다. quantization, context setting, runtime, memory pressure, prompt handling이 조금만 어긋나도 같은 weights가 전혀 다른 모델처럼 보인다. Qwen3.6이 빠르고 쓸 만하다는 주장도 중요했지만, 글의 실전 가치는 "어떤 설정에서 그렇게 느꼈는가"에 있었다.
댓글의 에너지는 기대와 의심이 섞여 있었다. 한 사용자는 Qwen이 중간 크기 모델을 내놓고 이전 flagship에 가까운 체감을 반복해서 만든다는 식으로 반응했다. 다른 사용자는 122B급 모델보다 낫다는 식의 과장은 믿기 어렵다며 선을 그었다. 이 균형이 중요하다. 커뮤니티는 Qwen3.6을 곧바로 cloud frontier 모델과 동급으로 올려놓지는 않았지만, local machine에서 agent나 coding 보조 작업에 들어갈 만큼 충분히 좋아졌는지에는 큰 관심을 보였다.
이번 스레드는 local AI의 현재 위치를 잘 보여준다. 모델 크기만 줄어드는 것이 아니라, 사용자가 직접 만지는 configuration layer가 성능 논쟁의 일부가 되고 있다. 같은 모델이라도 thinking 보존, quant 선택, runtime 최적화가 다르면 체감은 크게 달라진다. 그래서 LocalLLaMA식 뉴스의 핵심은 "Qwen3.6이 좋다"가 아니라 "Qwen3.6은 제대로 맞춰야 좋게 보인다"에 더 가깝다.
Source: r/LocalLLaMA discussion.
Related Articles
LocalLLaMA에서 Qwen3.6 35B A3B 모델이 업무 워크플로우를 바꿨다는 경험담이 화제입니다. Codex로 작업을 수행하고 과정을 스킬 문서로 기록해 pi 에이전트에 공급하는 방식으로 VPS 관리, PDF 변환 등을 자동화했습니다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.
Qwen3.5 출시 몇 주 뒤, r/LocalLLaMA는 general chat, coding, tool use에 맞는 sampler와 reasoning budget을 분리해 쓰는 방향으로 경험칙을 모으고 있다.