12GB VRAM으로 Qwen3.6 35B 모델 초당 80 토큰 달성
Original: 80 tok/sec and 128K context on 12GB VRAM with Qwen3.6 35B A3B and llama.cpp MTP View original →
주목할 만한 성과
로컬 LLM 커뮤니티 r/LocalLLaMA에서 12GB VRAM GPU 사용자가 Qwen3.6 35B A3B 모델을 초당 80토큰 이상의 속도로 구동하는 설정을 공개해 큰 반응을 얻었다. 35B 파라미터 모델을 소비자급 그래픽 카드로 이 속도로 실행한다는 것은 불과 몇 달 전만 해도 어려운 일이었다.
핵심 기술: llama.cpp MTP
이 성과의 핵심은 llama.cpp의 MTP(Multi-Token Prediction) 기능이다. MTP는 드래프트 모델이 여러 토큰을 미리 예측하면 메인 모델이 배치로 검증하는 방식으로, 80% 이상의 드래프트 수락률을 달성했다. 출력 품질을 유지하면서 실질적인 처리 속도를 크게 높인다.
설정 요약
- 모델: Qwen3.6 35B A3B (양자화 버전)
- 컨텍스트: 128K 토큰
- 속도: 80+ 토큰/초
- 드래프트 수락률: 80%+
- 필요 VRAM: 12GB
의미
12GB VRAM은 RTX 3060~4070 수준의 일반 소비자 GPU다. 이 등급 하드웨어로 35B 모델을 실용적인 속도로 구동할 수 있게 됐다는 것은 로컬 AI 민주화 측면에서 의미 있는 진전이다.
Related Articles
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
Comments (0)
No comments yet. Be the first to comment!