llama.cpp에 Multi-Token Prediction 지원 병합 완료

MTP가 llama.cpp에 도착했다

PR #22673이 llama.cpp 마스터 브랜치에 병합됐다. Multi-Token Prediction(MTP) 지원이 드디어 가장 널리 쓰이는 로컬 LLM 추론 엔진에 공식 탑재된 것이다. 이 소식은 r/LocalLLaMA에서 300점 이상의 추천을 받으며 커뮤니티 전체에 퍼졌다.

MTP란 무엇인가

기존 자동회귀 언어 모델은 토큰을 하나씩 순차적으로 생성한다. MTP는 단일 forward pass에서 여러 개의 미래 토큰을 동시에 예측하도록 모델을 훈련하는 기법이다. DeepSeek-V3, DeepSeek-R1 등이 MTP를 활용해 추론 속도를 크게 높이면서 업계의 주목을 받은 바 있다.

실용적 의미

MTP 자체는 훈련 시 적용되는 기법이므로, 모든 모델이 즉시 혜택을 받는 것은 아니다. 그러나 MTP를 지원하는 모델(현재 및 향후 출시 모델)을 llama.cpp로 실행할 때 추론 속도 향상을 기대할 수 있다. Orthrus-Qwen3과 같은 병렬 생성 접근법과 함께, 로컬 추론 생태계의 속도 경쟁이 본격화되고 있음을 보여주는 신호다.

llama.cpp의 위상

llama.cpp는 CPU 및 Apple Silicon 최적화 LLM 추론의 사실상 표준 엔진으로, Mac, Linux, Windows 등 다양한 환경에서 광범위하게 사용된다. 이번 MTP 병합은 오픈소스 AI 인프라가 최신 연구 기법을 얼마나 빠르게 수용하는지를 보여준다.