Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다
Original: Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 View original →
LocalLLaMA에서 이 스레드(1sw21op)가 뜬 이유는 “빠르다”만으로 설명되지 않는다. 작성자는 Qwen3.6-27B-INT4를 vLLM 0.19 기반으로 돌려 RTX 5090 한 장에서 105-108 tokens per second와 256k native context window를 얻었다고 적었다. 로컬 추론 커뮤니티 입장에서는 체감 속도, 문맥 길이, VRAM 현실성이 한 번에 묶인 숫자라서 반응이 컸다.
게시물에 따르면 핵심은 Lorbus의 AutoRound INT4 quant와 MTP speculative decoding 조합이다. 작성자는 --max-model-len 262144, --kv-cache-dtype fp8_e4m3, --quantization auto_round, --speculative-config {"method":"mtp","num_speculative_tokens":3} 같은 vLLM 설정을 공개했다. 이전날 80 tps/218k context 보고보다 더 나아진 수치여서, 커뮤니티는 단순한 hardware brag보다 “어떤 조합이 실제로 먹히는가”에 집중했다.
댓글도 바로 그 지점을 찔렀다. 가장 눈에 띈 질문은 속도보다 품질이었다. 다른 사용자는 24GB VRAM 환경에서 71-83 tok/s를 봤다며 turboquant 3-bit NC KV cache, MTP n=3, chunked prefill 같은 추가 튜닝 포인트를 길게 공유했다. 즉, 스레드의 흥분 포인트는 단순 신기록보다도 “RTX 5090 한 장으로 usable한 27B local coding stack이 어디까지 내려오나”에 있었다.
- 작성자가 적은 수치는 105-108 tps와 256k native context window다.
- 모델 링크는 Lorbus Qwen3.6-27B-int4-AutoRound이며, 게시물은 MTP 지원과 fp8 KV cache 설정을 함께 공개했다.
- 댓글에서는 “Unsloth Q4 대비 품질이 어느 정도냐”와 “16GB 또는 24GB VRAM 환경에서 어떤 타협이 가능한가”가 핵심 질문으로 이어졌다.
LocalLLaMA가 이 스레드를 올린 이유는 분명하다. 로컬 LLM 세계에서 좋은 데모는 최고 benchmark보다 “내 장비에서 진짜 굴러가느냐”에 더 가깝다. 이번 글은 딱 그 지점을 건드렸다. 27B 모델을 긴 context와 세 자리 tps에 가깝게 가져오자, 커뮤니티는 바로 환호보다 재현성과 품질 손실을 따지기 시작했다.
Related Articles
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
r/LocalLLaMA가 이 글을 끌어올린 이유는 “trust me bro”식 후기 안에 8-bit, 64k context, OpenCode, Android debugging이라는 실제 사용 조건이 들어 있었기 때문이다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.
Comments (0)
No comments yet. Be the first to comment!