Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유
Original: Qwen3.6 27B on dual RTX 5060 Ti 16GB with vLLM: ~60 tok/s, 204k context working View original →
이 Reddit 글이 먹힌 이유
LocalLLaMA의 이 스레드는 크롤링 시점 기준 111 업보트, 댓글 44개를 기록했다. 반응이 붙은 이유는 분명하다. “내 로컬 환경 빠르다” 수준이 아니라, 하드웨어 구성, 런타임 버전, 실행 옵션, 메모리 한계, 실패 조건까지 전부 적었다. 작성자는 Qwen3.6 27B를 RTX 5060 Ti 16GB 두 장에서 돌리며 실제로 어디까지 되는지, 어디서 바로 벽에 부딪히는지 숫자로 남겼다. LocalLLaMA가 이런 글을 높게 치는 이유도 여기에 있다. 체감담보다 재현 가능한 설정이 훨씬 더 값지기 때문이다.
구성과 핵심 수치
환경은 Proxmox LXC, 총 32GB VRAM, 16 vCPU, 약 60GB RAM, CUDA 13, Torch 2.11 nightly, vLLM 0.19.2rc1.dev 조합이다. 모델은 sakamakismile/Qwen3.6-27B-Text-NVFP4-MTP를 사용했다. 게시글에 적힌 수치는 8K 컨텍스트에서 MTP n=1 기준 50-52 tok/s, MTP n=3 기준 62-66 tok/s, 32K에서도 59-66 tok/s 수준이다. 가장 눈길을 끈 부분은 204800 토큰 창이 실제로 올라간다는 점이다. 다만 작성자도 이 구성이 넉넉한 세팅이 아니라 경계선 위 세팅이라고 분명히 적었다.
진짜 중요한 건 한계값 공개
이 글의 가치는 최고 속도보다 작동 범위를 정직하게 드러낸 데 있다. 204k에서 유휴 VRAM은 GPU당 약 14.45GiB, 168k 프리필 뒤에는 약 15.65GiB까지 올라간다. 168k needle retrieval 스모크 테스트는 약 256초에 통과했다. 반면 gpu_memory_utilization=0.94는 KV 할당에 실패했고, 0.95에서만 올라갔다. 시작 시간도 compile과 autotune 때문에 몇 분이 걸린다. 게다가 max_num_seqs=1이라 다중 동시성용 구성도 아니다. 상단 댓글이 20k 안정성, PCIe 세대, Blackwell의 NVFP4 지원 여부를 바로 물은 것도 같은 이유다. 다들 이 글을 밈이 아니라 실전 레시피로 읽었다.
로컬 추론 쪽 의미
이 사례는 “쓸 만한 로컬 LLM”의 기준선이 또 내려오고 있음을 보여준다. 물론 여유 있는 장비는 아니다. 작성자도 한계와 타협을 숨기지 않는다. 그럼에도 16GB 카드 두 장으로 이 정도 컨텍스트와 처리량을 내면, 개인 개발자나 소규모 팀이 시도할 수 있는 실험 폭이 넓어진다. LocalLLaMA가 붙은 이유도 단순하다. 좋은 숫자만이 아니라, 그 숫자가 어디서 깨지는지까지 같이 적어놨기 때문이다. Reddit 원문
Related Articles
27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.
중요한 점은 open-weight 27B dense 모델이 훨씬 큰 코딩 시스템과 agent task에서 직접 비교되고 있다는 데 있다. Qwen 모델 카드는 Qwen3.6-27B의 SWE-bench Verified를 77.2, Qwen3.5-397B-A17B를 76.2로 적었고 라이선스는 Apache 2.0이다.
r/LocalLLaMA가 이 글에 반응한 이유는 숫자가 구체적이었기 때문이다: RTX 5070 Ti에서 128K context와 79 t/s를 만든 핵심이 flag 하나로 좁혀졌다.
Comments (0)
No comments yet. Be the first to comment!