r/LocalLLaMA가 모으는 Qwen3.5 실전 파라미터 프리셋
Original: Qwen3.5 Best Parameters Collection View original →
2026년 3월 20일, r/LocalLLaMA의 "Qwen3.5 Best Parameters Collection" 스레드는 123 points와 47 comments를 기록했다. 시점이 흥미로운 이유는 Qwen3.5가 나온 지 몇 주가 지나, quantization과 runtime, sampler setting이 어느 정도 가라앉기 시작했지만 아직 완전한 consensus는 굳지 않은 상태였기 때문이다. 원글 작성자는 use case별로 실제로 잘 동작하는 preset을 묻고, Qwen3.5-35B-A3B를 llama.cpp v8400에서 돌릴 때의 시작점으로 temp 0.7, top-p 0.8, top-k 20, presence penalty 1.5, repeat penalty 1.0, reasoning budget 1000을 공유했다. 용도는 general chat, non-coding 중심이었다.
스레드에서 실제로 모인 설정 포인트
- 많은 댓글은 Reddit식 folklore보다 공식 Qwen model card 권장값을 baseline으로 삼는 것이 가장 안전하다고 봤다.
- 여러 사용자는 thinking coding, thinking general, instruct creative writing, instruct coding처럼 작업별로 다른 preset을 제시했다.
- reasoning budget은 4096부터 16384까지 크게 갈렸고, document length와 long chain-of-thought를 얼마나 허용할지에 따라 조정하는 방식이 공유됐다.
- tool-calling workload에서는 non-thinking mode와 조금 더 높은 repeat penalty가 오히려 낫다는 경험담도 나왔다. 긴 reasoning trace가 느려지기만 하고 결과를 크게 올리지 않는다는 이유였다.
흥미로운 점은 특정 파라미터 하나가 아니라, 성능을 바라보는 관점 자체가 바뀌고 있다는 것이다. LocalLLaMA 커뮤니티는 이제 inference policy를 model quality의 일부로 취급한다. 같은 checkpoint라도 coding, chat, tool use, long-document parsing 중 무엇을 하느냐에 따라 verbose하게 느껴질 수도 있고, surprisingly useful하게 느껴질 수도 있다. 즉 질문이 "어떤 모델이 이기나"에서 "이 모델을 쓸 만하게 만드는 operating profile이 무엇인가"로 이동하고 있다.
왜 이 스레드가 의미 있나
open-weight ecosystem은 대체로 비슷한 성숙 경로를 밟는다. 처음에는 benchmark 점수에 시선이 몰리고, 그다음에는 quant quality와 runtime support, context length가 화제가 된다. 그 다음 단계에서 사용자들은 default sampler setting이 실제 체감 성능의 큰 부분을 가리고 있다는 사실을 발견한다. 이 스레드는 정확히 그 세 번째 단계에 있다. universal preset을 주지는 않지만, 공식 설정에서 출발한 뒤 task type과 reasoning budget에 맞춰 branching해야 한다는 보다 disciplined한 consensus를 보여준다.
이 점은 consumer GPU 위에서 local LLM stack을 평가하는 사람에게 특히 실용적이다. general chat에서는 "너무 많이 생각한다"고 느껴지는 모델도, sampler와 budget을 다시 잡으면 coding이나 document analysis에서는 좋은 선택이 될 수 있다. 이 스레드는 leaderboard update라기보다, Qwen3.5가 weights 자체만이 아니라 운용법까지 함께 다뤄야 하는 단계에 들어섰다는 신호에 가깝다.
Related Articles
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
r/LocalLLaMA에서 CPU 메모리로 offload한 가중치를 미리 가져와 prompt 처리 속도를 끌어올리려는 llama.cpp 실험이 주목을 받았다. 긴 context에서 hybrid CPU/GPU 추론의 병목을 줄이려는 시도다.
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
Comments (0)
No comments yet. Be the first to comment!