Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

LocalLLaMA에서 이 스레드(1sw21op)가 뜬 이유는 “빠르다”만으로 설명되지 않는다. 작성자는 Qwen3.6-27B-INT4를 vLLM 0.19 기반으로 돌려 RTX 5090 한 장에서 105-108 tokens per second와 256k native context window를 얻었다고 적었다. 로컬 추론 커뮤니티 입장에서는 체감 속도, 문맥 길이, VRAM 현실성이 한 번에 묶인 숫자라서 반응이 컸다.

게시물에 따르면 핵심은 Lorbus의 AutoRound INT4 quant와 MTP speculative decoding 조합이다. 작성자는 --max-model-len 262144, --kv-cache-dtype fp8_e4m3, --quantization auto_round, --speculative-config {"method":"mtp","num_speculative_tokens":3} 같은 vLLM 설정을 공개했다. 이전날 80 tps/218k context 보고보다 더 나아진 수치여서, 커뮤니티는 단순한 hardware brag보다 “어떤 조합이 실제로 먹히는가”에 집중했다.

댓글도 바로 그 지점을 찔렀다. 가장 눈에 띈 질문은 속도보다 품질이었다. 다른 사용자는 24GB VRAM 환경에서 71-83 tok/s를 봤다며 turboquant 3-bit NC KV cache, MTP n=3, chunked prefill 같은 추가 튜닝 포인트를 길게 공유했다. 즉, 스레드의 흥분 포인트는 단순 신기록보다도 “RTX 5090 한 장으로 usable한 27B local coding stack이 어디까지 내려오나”에 있었다.

작성자가 적은 수치는 105-108 tps와 256k native context window다.
모델 링크는 Lorbus Qwen3.6-27B-int4-AutoRound이며, 게시물은 MTP 지원과 fp8 KV cache 설정을 함께 공개했다.
댓글에서는 “Unsloth Q4 대비 품질이 어느 정도냐”와 “16GB 또는 24GB VRAM 환경에서 어떤 타협이 가능한가”가 핵심 질문으로 이어졌다.

LocalLLaMA가 이 스레드를 올린 이유는 분명하다. 로컬 LLM 세계에서 좋은 데모는 최고 benchmark보다 “내 장비에서 진짜 굴러가느냐”에 더 가깝다. 이번 글은 딱 그 지점을 건드렸다. 27B 모델을 긴 context와 세 자리 tps에 가깝게 가져오자, 커뮤니티는 바로 환호보다 재현성과 품질 손실을 따지기 시작했다.

Qwen3.6 27B, RTX 5090 한 장에서 100 tps… LocalLLaMA가 바로 물은 건 품질이었다

Related Articles

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다

r/LocalLLaMA, CoPaw-9B 공개에 주목…작은 Agent 모델 기대와 quantization 수요

Comments (0)

Leave a Comment

Related Articles

RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유
LocalLLaMA가 반응한 이유는 '새 모델 출시' 한 줄이 아니었다. RTX 5090 한 장에서 Qwen3.6-27B를 약 80 tokens/s, 218k context로 돌렸다는 구체적 수치가 붙었기 때문이다.

M5 Max에서 돈 Qwen3.6, LocalLLaMA의 관심은 code를 밖으로 안 보내도 되나였다
LLM Reddit Apr 20, 2026 1 min read

r/LocalLLaMA, CoPaw-9B 공개에 주목…작은 Agent 모델 기대와 quantization 수요
LLM Reddit Mar 31, 2026 2 min read