Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유
Original: Qwen3.6 27B on dual RTX 5060 Ti 16GB with vLLM: ~60 tok/s, 204k context working View original →
이 Reddit 글이 먹힌 이유
LocalLLaMA의 이 스레드는 크롤링 시점 기준 111 업보트, 댓글 44개를 기록했다. 반응이 붙은 이유는 분명하다. “내 로컬 환경 빠르다” 수준이 아니라, 하드웨어 구성, 런타임 버전, 실행 옵션, 메모리 한계, 실패 조건까지 전부 적었다. 작성자는 Qwen3.6 27B를 RTX 5060 Ti 16GB 두 장에서 돌리며 실제로 어디까지 되는지, 어디서 바로 벽에 부딪히는지 숫자로 남겼다. LocalLLaMA가 이런 글을 높게 치는 이유도 여기에 있다. 체감담보다 재현 가능한 설정이 훨씬 더 값지기 때문이다.
구성과 핵심 수치
환경은 Proxmox LXC, 총 32GB VRAM, 16 vCPU, 약 60GB RAM, CUDA 13, Torch 2.11 nightly, vLLM 0.19.2rc1.dev 조합이다. 모델은 sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP를 사용했다. 게시글에 적힌 수치는 8K 컨텍스트에서 MTP n=1 기준 50-52 tok/s, MTP n=3 기준 62-66 tok/s, 32K에서도 59-66 tok/s 수준이다. 가장 눈길을 끈 부분은 204800 토큰 창이 실제로 올라간다는 점이다. 다만 작성자도 이 구성이 넉넉한 세팅이 아니라 경계선 위 세팅이라고 분명히 적었다.
진짜 중요한 건 한계값 공개
이 글의 가치는 최고 속도보다 작동 범위를 정직하게 드러낸 데 있다. 204k에서 유휴 VRAM은 GPU당 약 14.45GiB, 168k 프리필 뒤에는 약 15.65GiB까지 올라간다. 168k needle retrieval 스모크 테스트는 약 256초에 통과했다. 반면 gpu_memory_utilization=0.94는 KV 할당에 실패했고, 0.95에서만 올라갔다. 시작 시간도 compile과 autotune 때문에 몇 분이 걸린다. 게다가 max_num_seqs=1이라 다중 동시성용 구성도 아니다. 상단 댓글이 20k 안정성, PCIe 세대, Blackwell의 NVFP4 지원 여부를 바로 물은 것도 같은 이유다. 다들 이 글을 밈이 아니라 실전 레시피로 읽었다.
로컬 추론 쪽 의미
이 사례는 “쓸 만한 로컬 LLM”의 기준선이 또 내려오고 있음을 보여준다. 물론 여유 있는 장비는 아니다. 작성자도 한계와 타협을 숨기지 않는다. 그럼에도 16GB 카드 두 장으로 이 정도 컨텍스트와 처리량을 내면, 개인 개발자나 소규모 팀이 시도할 수 있는 실험 폭이 넓어진다. LocalLLaMA가 붙은 이유도 단순하다. 좋은 숫자만이 아니라, 그 숫자가 어디서 깨지는지까지 같이 적어놨기 때문이다. Reddit 원문
Related Articles
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.
LocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.