llama.cpp에 Multi-Token Prediction 지원 병합 완료
Original: MTP support merged into llama.cpp View original →
MTP가 llama.cpp에 도착했다
PR #22673이 llama.cpp 마스터 브랜치에 병합됐다. Multi-Token Prediction(MTP) 지원이 드디어 가장 널리 쓰이는 로컬 LLM 추론 엔진에 공식 탑재된 것이다. 이 소식은 r/LocalLLaMA에서 300점 이상의 추천을 받으며 커뮤니티 전체에 퍼졌다.
MTP란 무엇인가
기존 자동회귀 언어 모델은 토큰을 하나씩 순차적으로 생성한다. MTP는 단일 forward pass에서 여러 개의 미래 토큰을 동시에 예측하도록 모델을 훈련하는 기법이다. DeepSeek-V3, DeepSeek-R1 등이 MTP를 활용해 추론 속도를 크게 높이면서 업계의 주목을 받은 바 있다.
실용적 의미
MTP 자체는 훈련 시 적용되는 기법이므로, 모든 모델이 즉시 혜택을 받는 것은 아니다. 그러나 MTP를 지원하는 모델(현재 및 향후 출시 모델)을 llama.cpp로 실행할 때 추론 속도 향상을 기대할 수 있다. Orthrus-Qwen3과 같은 병렬 생성 접근법과 함께, 로컬 추론 생태계의 속도 경쟁이 본격화되고 있음을 보여주는 신호다.
llama.cpp의 위상
llama.cpp는 CPU 및 Apple Silicon 최적화 LLM 추론의 사실상 표준 엔진으로, Mac, Linux, Windows 등 다양한 환경에서 광범위하게 사용된다. 이번 MTP 병합은 오픈소스 AI 인프라가 최신 연구 기법을 얼마나 빠르게 수용하는지를 보여준다.
Related Articles
llama.cpp MTP 기능을 활용해 12GB VRAM GPU에서 Qwen3.6 35B A3B 모델을 초당 80토큰 이상, 128K 컨텍스트로 실행하는 설정이 공유됐다.
llama.cpp에 멀티토큰 예측(MTP) 지원이 베타로 진입했다. 현재 Qwen3.5 MTP를 지원하며, 텐서 병렬 처리와 함께 vLLM과의 성능 격차를 좁힐 것으로 기대된다.
Orthrus 프레임워크가 Qwen3 모델에서 forward pass당 최대 7.8배 토큰 생성 속도를 달성했다. 단일 KV 캐시로 자동회귀와 확산 뷰를 통합하는 이중 뷰 아키텍처 덕분에 출력 분포는 원본과 동일하다.
Comments (0)
No comments yet. Be the first to comment!