12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성

주목할 만한 성과

로컬 LLM 커뮤니티 r/LocalLLaMA에서 12GB VRAM GPU 사용자가 Qwen3.6 35B A3B 모델을 초당 80토큰 이상의 속도로 구동하는 설정을 공개해 큰 반응을 얻었다. 35B 파라미터 모델을 소비자급 그래픽 카드로 이 속도로 실행한다는 것은 불과 몇 달 전만 해도 어려운 일이었다.

핵심 기술: llama.cpp MTP

이 성과의 핵심은 llama.cpp의 MTP(Multi-Token Prediction) 기능이다. MTP는 드래프트 모델이 여러 토큰을 미리 예측하면 메인 모델이 배치로 검증하는 방식으로, 80% 이상의 드래프트 수락률을 달성했다. 출력 품질을 유지하면서 실질적인 처리 속도를 크게 높인다.

설정 요약

모델: Qwen3.6 35B A3B (양자화 버전)
컨텍스트: 128K 토큰
속도: 80+ 토큰/초
드래프트 수락률: 80%+
필요 VRAM: 12GB

의미

12GB VRAM은 RTX 3060~4070 수준의 일반 소비자 GPU다. 이 등급 하드웨어로 35B 모델을 실용적인 속도로 구동할 수 있게 됐다는 것은 로컬 AI 민주화 측면에서 의미 있는 진전이다.

LLM Reddit 6d ago 1 min read

llama.cpp, 멀티토큰 예측(MTP) 베타 진입

llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.

#llama-cpp #mtp #local-llm

LLM Reddit 4d ago 1 min read

Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트

llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.

#qwen #mtp #local-llm

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA, Qwen3.5 27B를 local inference의 sweet spot으로 평가

r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.

#qwen #local-llm #llama-cpp