r/LocalLLaMA가 모으는 Qwen3.5 실전 파라미터 프리셋

Original: Qwen3.5 Best Parameters Collection View original →

Read in other languages: English日本語
LLM Mar 20, 2026 By Insights AI (Reddit) 2 min read Source

2026년 3월 20일, r/LocalLLaMA의 "Qwen3.5 Best Parameters Collection" 스레드는 123 points와 47 comments를 기록했다. 시점이 흥미로운 이유는 Qwen3.5가 나온 지 몇 주가 지나, quantization과 runtime, sampler setting이 어느 정도 가라앉기 시작했지만 아직 완전한 consensus는 굳지 않은 상태였기 때문이다. 원글 작성자는 use case별로 실제로 잘 동작하는 preset을 묻고, Qwen3.5-35B-A3B를 llama.cpp v8400에서 돌릴 때의 시작점으로 temp 0.7, top-p 0.8, top-k 20, presence penalty 1.5, repeat penalty 1.0, reasoning budget 1000을 공유했다. 용도는 general chat, non-coding 중심이었다.

스레드에서 실제로 모인 설정 포인트

  • 많은 댓글은 Reddit식 folklore보다 공식 Qwen model card 권장값을 baseline으로 삼는 것이 가장 안전하다고 봤다.
  • 여러 사용자는 thinking coding, thinking general, instruct creative writing, instruct coding처럼 작업별로 다른 preset을 제시했다.
  • reasoning budget은 4096부터 16384까지 크게 갈렸고, document length와 long chain-of-thought를 얼마나 허용할지에 따라 조정하는 방식이 공유됐다.
  • tool-calling workload에서는 non-thinking mode와 조금 더 높은 repeat penalty가 오히려 낫다는 경험담도 나왔다. 긴 reasoning trace가 느려지기만 하고 결과를 크게 올리지 않는다는 이유였다.

흥미로운 점은 특정 파라미터 하나가 아니라, 성능을 바라보는 관점 자체가 바뀌고 있다는 것이다. LocalLLaMA 커뮤니티는 이제 inference policy를 model quality의 일부로 취급한다. 같은 checkpoint라도 coding, chat, tool use, long-document parsing 중 무엇을 하느냐에 따라 verbose하게 느껴질 수도 있고, surprisingly useful하게 느껴질 수도 있다. 즉 질문이 "어떤 모델이 이기나"에서 "이 모델을 쓸 만하게 만드는 operating profile이 무엇인가"로 이동하고 있다.

왜 이 스레드가 의미 있나

open-weight ecosystem은 대체로 비슷한 성숙 경로를 밟는다. 처음에는 benchmark 점수에 시선이 몰리고, 그다음에는 quant quality와 runtime support, context length가 화제가 된다. 그 다음 단계에서 사용자들은 default sampler setting이 실제 체감 성능의 큰 부분을 가리고 있다는 사실을 발견한다. 이 스레드는 정확히 그 세 번째 단계에 있다. universal preset을 주지는 않지만, 공식 설정에서 출발한 뒤 task type과 reasoning budget에 맞춰 branching해야 한다는 보다 disciplined한 consensus를 보여준다.

이 점은 consumer GPU 위에서 local LLM stack을 평가하는 사람에게 특히 실용적이다. general chat에서는 "너무 많이 생각한다"고 느껴지는 모델도, sampler와 budget을 다시 잡으면 coding이나 document analysis에서는 좋은 선택이 될 수 있다. 이 스레드는 leaderboard update라기보다, Qwen3.5가 weights 자체만이 아니라 운용법까지 함께 다뤄야 하는 단계에 들어섰다는 신호에 가깝다.

출처: r/LocalLLaMA discussion · Unsloth Qwen3.5 documentation

Share: Long

Related Articles

LLM Reddit 5d ago 1 min read

r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.