Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

Original: Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 View original →

Read in other languages: English日本語
LLM Apr 27, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA에서 이 스레드(1sw21op)가 뜬 이유는 “빠르다”만으로 설명되지 않는다. 작성자는 Qwen3.6-27B-INT4를 vLLM 0.19 기반으로 돌려 RTX 5090 한 장에서 105-108 tokens per second와 256k native context window를 얻었다고 적었다. 로컬 추론 커뮤니티 입장에서는 체감 속도, 문맥 길이, VRAM 현실성이 한 번에 묶인 숫자라서 반응이 컸다.

게시물에 따르면 핵심은 Lorbus의 AutoRound INT4 quant와 MTP speculative decoding 조합이다. 작성자는 --max-model-len 262144, --kv-cache-dtype fp8_e4m3, --quantization auto_round, --speculative-config {"method":"mtp","num_speculative_tokens":3} 같은 vLLM 설정을 공개했다. 이전날 80 tps/218k context 보고보다 더 나아진 수치여서, 커뮤니티는 단순한 hardware brag보다 “어떤 조합이 실제로 먹히는가”에 집중했다.

댓글도 바로 그 지점을 찔렀다. 가장 눈에 띈 질문은 속도보다 품질이었다. 다른 사용자는 24GB VRAM 환경에서 71-83 tok/s를 봤다며 turboquant 3-bit NC KV cache, MTP n=3, chunked prefill 같은 추가 튜닝 포인트를 길게 공유했다. 즉, 스레드의 흥분 포인트는 단순 신기록보다도 “RTX 5090 한 장으로 usable한 27B local coding stack이 어디까지 내려오나”에 있었다.

  • 작성자가 적은 수치는 105-108 tps와 256k native context window다.
  • 모델 링크는 Lorbus Qwen3.6-27B-int4-AutoRound이며, 게시물은 MTP 지원과 fp8 KV cache 설정을 함께 공개했다.
  • 댓글에서는 “Unsloth Q4 대비 품질이 어느 정도냐”와 “16GB 또는 24GB VRAM 환경에서 어떤 타협이 가능한가”가 핵심 질문으로 이어졌다.

LocalLLaMA가 이 스레드를 올린 이유는 분명하다. 로컬 LLM 세계에서 좋은 데모는 최고 benchmark보다 “내 장비에서 진짜 굴러가느냐”에 더 가깝다. 이번 글은 딱 그 지점을 건드렸다. 27B 모델을 긴 context와 세 자리 tps에 가깝게 가져오자, 커뮤니티는 바로 환호보다 재현성과 품질 손실을 따지기 시작했다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.