llama.cpp, 멀티토큰 예측(MTP) 베타 진입
Original: Llama.cpp MTP support now in beta! View original →
MTP란 무엇인가
멀티토큰 예측(Multi-Token Prediction, MTP)은 한 번의 추론 단계에서 여러 토큰을 동시에 예측하는 기법이다. 기존 자동회귀 방식 대비 토큰 생성 속도를 크게 높일 수 있으며, vLLM 같은 서버 추론 프레임워크가 이미 지원하고 있다.
llama.cpp 베타 현황
r/LocalLLaMA에서 277점을 기록한 이 포스트에 따르면, Aman을 비롯한 컨트리뷰터들의 노력으로 llama.cpp MTP 지원이 베타 단계에 진입했다. 현재는 Qwen3.5 MTP만 지원하지만 다른 모델로의 확장이 예정돼 있다.
개발자는 "성숙 중인 텐서 병렬 처리 지원과 함께 llama.cpp와 vLLM 간 토큰 생성 속도 격차가 대부분 사라질 것"이라고 밝혔다. 이는 로컬 추론 환경에서 성능과 비용 양면에서 의미 있는 개선을 뜻한다.
로컬 LLM에 미치는 영향
llama.cpp는 소비자급 하드웨어에서 LLM을 구동하는 사실상의 표준 도구다. MTP 지원이 안정화되면 Qwen3, Llama 4 등 최신 모델의 로컬 추론 속도가 서버급에 근접할 수 있다. PR은 현재 리뷰 단계이며 곧 메인 브랜치에 병합될 예정이다.
Related Articles
r/LocalLLaMA의 한 글은 Qwen3.5 27B가 quality와 deployability 사이에서 드문 균형점을 만든다고 주장한다. 게시물은 RTX A6000 48GB, llama.cpp with CUDA, 32K context에서 약 19.7 tokens/sec를 보고했고, 댓글에서는 dense 27B와 35B-A3B MoE의 VRAM economics가 활발히 비교됐다.
LocalLLaMA가 바로 반응한 이유는 체감 포인트가 분명해서다. 작은 GBNF 제약만으로 Qwen3.6의 reasoning drag를 줄이고, 긴 작업의 토큰 낭비와 시간을 같이 깎았다는 주장이 나왔다.
LocalLLaMA가 Hipfire에 몰린 이유는 새 repo 하나가 아니라 RDNA 사용자들이 오래 기다린 “우리 쪽 최적화”에 가까웠기 때문이다. 댓글도 곧바로 실제 카드에서 나온 속도 수치와 호환성 질문으로 채워졌다.
Comments (0)
No comments yet. Be the first to comment!