Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다
Original: Qwen3.6-27B-INT4 clocking 100 tps with 256k context length on 1x RTX 5090 via vllm 0.19 View original →
LocalLLaMA에서 이 스레드(1sw21op)가 뜬 이유는 “빠르다”만으로 설명되지 않는다. 작성자는 Qwen3.6-27B-INT4를 vLLM 0.19 기반으로 돌려 RTX 5090 한 장에서 105-108 tokens per second와 256k native context window를 얻었다고 적었다. 로컬 추론 커뮤니티 입장에서는 체감 속도, 문맥 길이, VRAM 현실성이 한 번에 묶인 숫자라서 반응이 컸다.
게시물에 따르면 핵심은 Lorbus의 AutoRound INT4 quant와 MTP speculative decoding 조합이다. 작성자는 --max-model-len 262144, --kv-cache-dtype fp8_e4m3, --quantization auto_round, --speculative-config {"method":"mtp","num_speculative_tokens":3} 같은 vLLM 설정을 공개했다. 이전날 80 tps/218k context 보고보다 더 나아진 수치여서, 커뮤니티는 단순한 hardware brag보다 “어떤 조합이 실제로 먹히는가”에 집중했다.
댓글도 바로 그 지점을 찔렀다. 가장 눈에 띈 질문은 속도보다 품질이었다. 다른 사용자는 24GB VRAM 환경에서 71-83 tok/s를 봤다며 turboquant 3-bit NC KV cache, MTP n=3, chunked prefill 같은 추가 튜닝 포인트를 길게 공유했다. 즉, 스레드의 흥분 포인트는 단순 신기록보다도 “RTX 5090 한 장으로 usable한 27B local coding stack이 어디까지 내려오나”에 있었다.
- 작성자가 적은 수치는 105-108 tps와 256k native context window다.
- 모델 링크는 Lorbus Qwen3.6-27B-int4-AutoRound이며, 게시물은 MTP 지원과 fp8 KV cache 설정을 함께 공개했다.
- 댓글에서는 “Unsloth Q4 대비 품질이 어느 정도냐”와 “16GB 또는 24GB VRAM 환경에서 어떤 타협이 가능한가”가 핵심 질문으로 이어졌다.
LocalLLaMA가 이 스레드를 올린 이유는 분명하다. 로컬 LLM 세계에서 좋은 데모는 최고 benchmark보다 “내 장비에서 진짜 굴러가느냐”에 더 가깝다. 이번 글은 딱 그 지점을 건드렸다. 27B 모델을 긴 context와 세 자리 tps에 가깝게 가져오자, 커뮤니티는 바로 환호보다 재현성과 품질 손실을 따지기 시작했다.
Related Articles
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.