Qwen 3.6 27B + MTP로 로컬 추론 속도 2.5배 향상, 48GB에서 262k 컨텍스트
Original: 2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints View original →
Qwen 3.6 27B MTP 구성법
r/LocalLLaMA에서 한 사용자가 llama.cpp의 MTP 지원 PR을 이용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 상세 가이드를 공유했다. M2 Max 96GB에서 직접 테스트한 결과로, 커뮤니티에서 600점 이상의 높은 호응을 얻었다.
주요 특징
이 구성은 투기적 디코딩을 통한 2.5배 속도 향상 외에도 48GB에서 262,000 토큰 컨텍스트를 지원한다. 수정된 채팅 템플릿, OpenAI 및 Anthropic API와의 드롭인 호환 엔드포인트, q4_0 KV 캐시 압축 등이 포함된다.
에이전틱 코딩을 위한 실용적 선택
저자는 이 구성이 "마침내 로컬 에이전틱 코딩의 실행 가능한 옵션"이 됐다고 평가한다. 긴 컨텍스트 창과 빠른 추론 속도의 조합이 Claude Code 같은 에이전틱 코딩 워크플로에서 클라우드 API 의존성을 줄이는 데 실질적으로 도움이 된다.
주의사항
해당 PR은 아직 불안정하며 활발한 논의가 진행 중이다. 저자는 초기 게시물에서 turbo quants 사용을 권장했으나 빌드 불안정성으로 인해 표준 q4_0 KV 캐시 압축으로 대체했다. HuggingFace에서 새 버전 업로드가 완료된 후 다운로드를 권장한다.
Related Articles
Alex Ellis의 글이 주목받은 이유는 local LLM을 benchmark 순위가 아니라 실제 사업과 agent 작업의 비용·통제 문제로 다뤘기 때문이다.
LocalLLaMA의 관심은 속도 숫자보다 FP4, DFlash speculative decoding, commodity GPU 조합이 실제로 어디까지 재현될 수 있느냐에 모였다.
Qwen3.6-27B를 vLLM에서 agent loop로 돌리던 사용자들이 멈춤과 streaming tool call 오류에 예민하게 반응했다. nightly parser 수정은 작지만, 로컬 에이전트 운용에서는 체감이 큰 문제를 겨냥한다.