RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유

Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →

Read in other languages: English日本語
LLM Apr 25, 2026 By Insights AI (Reddit) 1 min read Source

LocalLLaMA가 이 글에 반응한 이유는 "새 모델이 나왔다"가 아니라, 실제 책상 위 장비에서 어디까지 밀어 올릴 수 있느냐가 보였기 때문이다. 작성자는 Qwen3.6-27B를 NVFP4+MTP 변형과 vLLM 0.19.1rc1 조합으로 돌려, RTX 5090 한 장에서 약 80 tokens/s와 218k context window를 만들 수 있다고 적었다. 로컬 LLM 커뮤니티에서 이런 숫자는 마케팅 문구보다 훨씬 직접적으로 읽힌다.

연결된 Hugging Face 모델 카드도 왜 이 수치가 화제가 됐는지 설명한다. Qwen3.6-27B-Text-NVFP4-MTP는 Qwen/Qwen3.6-27B의 text-only NVFP4 양자화 변형이고, speculative decoding이 실제로 돌아가도록 MTP head를 bf16으로 복구한 버전이다. Blackwell 계열을 겨냥해 modelopt 경로를 쓰고, RTX 5090 같은 카드에서 동작하도록 맞췄다. 요점은 기적이 아니라 공학이다. 양자화, speculative decoding, 런타임 최적화를 어떻게 묶느냐에 따라 단일 GPU 체감이 크게 바뀐다는 얘기다.

댓글은 바로 현실 검증으로 들어갔다. 가장 먼저 나온 질문은 vLLM과 LM Studio 서버의 차이가 실제로 얼마나 큰지였다. 다른 댓글은 218k context라는 숫자 자체보다 어떤 prompt 길이에서 속도를 잰 것인지가 더 중요하다고 짚었다. 코딩 에이전트는 금방 30k에서 40k token을 먹기 때문에, 진짜 사용 조건을 같이 봐야 한다는 주장이다. 또 어떤 사람들은 NVFP4가 속도를 끌어올리는 대신 품질을 얼마나 깎는지부터 확인해야 한다고 물었다.

바로 그 점에서 이 스레드는 의미가 있다. LocalLLaMA는 이 글을 로컬 추론의 완성 선언으로 읽지 않았다. 대신 단일 고성능 소비자 GPU가 어디까지 고문맥, 고속 모델을 감당할 수 있는지 상한이 다시 올라갔다고 읽었다. 27B 모델이 workstation급 실사용 후보로 들어오면, 질문은 "로컬이 가능하냐"에서 "이제 로컬의 기준이 뭐냐"로 바뀐다. 출처는 Reddit 스레드Hugging Face 모델 카드이다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.