llama.cpp, 멀티토큰 예측(MTP) 베타 진입
Original: Llama.cpp MTP support now in beta! View original →
MTP란 무엇인가
멀티토큰 예측(Multi-Token Prediction, MTP)은 한 번의 추론 단계에서 여러 토큰을 동시에 예측하는 기법이다. 기존 자동회귀 방식 대비 토큰 생성 속도를 크게 높일 수 있으며, vLLM 같은 서버 추론 프레임워크가 이미 지원하고 있다.
llama.cpp 베타 현황
r/LocalLLaMA에서 277점을 기록한 이 포스트에 따르면, Aman을 비롯한 컨트리뷰터들의 노력으로 llama.cpp MTP 지원이 베타 단계에 진입했다. 현재는 Qwen3.5 MTP만 지원하지만 다른 모델로의 확장이 예정돼 있다.
개발자는 "성숙 중인 텐서 병렬 처리 지원과 함께 llama.cpp와 vLLM 간 토큰 생성 속도 격차가 대부분 사라질 것"이라고 밝혔다. 이는 로컬 추론 환경에서 성능과 비용 양면에서 의미 있는 개선을 뜻한다.
로컬 LLM에 미치는 영향
llama.cpp는 소비자급 하드웨어에서 LLM을 구동하는 사실상의 표준 도구다. MTP 지원이 안정화되면 Qwen3, Llama 4 등 최신 모델의 로컬 추론 속도가 서버급에 근접할 수 있다. PR은 현재 리뷰 단계이며 곧 메인 브랜치에 병합될 예정이다.
Related Articles
Alex Ellis의 글이 주목받은 이유는 local LLM을 benchmark 순위가 아니라 실제 사업과 agent 작업의 비용·통제 문제로 다뤘기 때문이다.
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
llama.cpp의 새 MTP 지원 PR을 활용해 Qwen 3.6 27B의 추론 속도를 2.5배 높이는 방법이 공유됐다. 48GB 메모리에서 262,000 토큰 컨텍스트로 로컬 에이전틱 코딩이 가능해졌다.