RTX 5090 한 장으로 Qwen 3.6 27B 80t/s, LocalLLaMA가 반응한 이유
Original: Qwen3.6-27B at ~80 tps with 218k context window on 1x RTX 5090 served by vllm 0.19 View original →
LocalLLaMA가 이 글에 반응한 이유는 "새 모델이 나왔다"가 아니라, 실제 책상 위 장비에서 어디까지 밀어 올릴 수 있느냐가 보였기 때문이다. 작성자는 Qwen3.6-27B를 NVFP4+MTP 변형과 vLLM 0.19.1rc1 조합으로 돌려, RTX 5090 한 장에서 약 80 tokens/s와 218k context window를 만들 수 있다고 적었다. 로컬 LLM 커뮤니티에서 이런 숫자는 마케팅 문구보다 훨씬 직접적으로 읽힌다.
연결된 Hugging Face 모델 카드도 왜 이 수치가 화제가 됐는지 설명한다. Qwen3.6-27B-Text-NVFP4-MTP는 Qwen/Qwen3.6-27B의 text-only NVFP4 양자화 변형이고, speculative decoding이 실제로 돌아가도록 MTP head를 bf16으로 복구한 버전이다. Blackwell 계열을 겨냥해 modelopt 경로를 쓰고, RTX 5090 같은 카드에서 동작하도록 맞췄다. 요점은 기적이 아니라 공학이다. 양자화, speculative decoding, 런타임 최적화를 어떻게 묶느냐에 따라 단일 GPU 체감이 크게 바뀐다는 얘기다.
댓글은 바로 현실 검증으로 들어갔다. 가장 먼저 나온 질문은 vLLM과 LM Studio 서버의 차이가 실제로 얼마나 큰지였다. 다른 댓글은 218k context라는 숫자 자체보다 어떤 prompt 길이에서 속도를 잰 것인지가 더 중요하다고 짚었다. 코딩 에이전트는 금방 30k에서 40k token을 먹기 때문에, 진짜 사용 조건을 같이 봐야 한다는 주장이다. 또 어떤 사람들은 NVFP4가 속도를 끌어올리는 대신 품질을 얼마나 깎는지부터 확인해야 한다고 물었다.
바로 그 점에서 이 스레드는 의미가 있다. LocalLLaMA는 이 글을 로컬 추론의 완성 선언으로 읽지 않았다. 대신 단일 고성능 소비자 GPU가 어디까지 고문맥, 고속 모델을 감당할 수 있는지 상한이 다시 올라갔다고 읽었다. 27B 모델이 workstation급 실사용 후보로 들어오면, 질문은 "로컬이 가능하냐"에서 "이제 로컬의 기준이 뭐냐"로 바뀐다. 출처는 Reddit 스레드와 Hugging Face 모델 카드이다.
Related Articles
LocalLLaMA가 이 글에 꽂힌 이유는 숫자 하나 때문만은 아니었다. RTX 5090 한 장에서 Qwen3.6-27B-INT4를 100 tps와 256k context로 돌렸다는 보고가 올라오자, 댓글은 곧바로 “그 속도에서 품질은 어디까지 지키느냐”로 모였다.
커뮤니티 개발자가 2x RTX 3090(NVLink) 환경에서 vLLM과 텐서 병렬화를 활용해 Qwen3.5 27B 모델을 170k 컨텍스트에서 초당 100+ 토큰 디코딩, 최대 585t/s의 멀티 요청 처리 성능을 달성했다.
r/LocalLLaMA에서 CoPaw-9B 관련 글이 142점과 29개 댓글을 기록하며 주목을 받았다. 스레드는 Qwen3.5 기반의 9B Agent 모델, 262,144 token context, 그리고 GGUF·quantized 배포 가능성에 대한 관심을 중심으로 반응이 갈렸다.