llama.cpp 자동 parser generator 병합, 모델별 파서 유지 비용을 낮추다
Original: Llama.cpp: now with automatic parser generator View original →
Reddit 스레드: LocalLLaMA 토론
이번 주 LocalLLaMA에서 눈에 띈 인프라 업데이트는 llama.cpp autoparser가 mainline에 병합됐다는 소식이다. 작성자는 이를 reasoning, tool calls, content 구조를 각 모델의 chat template에서 직접 추론하는 방식으로 설명한다. 즉 모델 계열마다 별도의 parser 정의를 만들어 배포하고 유지하는 부담을 줄이려는 시도다.
llama.cpp에서 달라진 점
- 이번 작업은 llama.cpp의 native Jinja 시스템과 PEG parser 프레임워크 위에 올라가 있다.
- 일반적인 template 패턴은 자동 분석이 가능해져 reasoning과 tool-calling 형식이 out of the box로 지원된다.
- 예외적인 형식은 여전히 별도 처리가 필요하지만, 모델마다 one-off parser를 작성하거나 다시 컴파일해야 하는 경우는 줄어들 수 있다.
작성자는 이것이 모든 parser 작업을 없애는 것은 아니라고 분명히 말한다. GPT OSS의 Harmony format처럼 특이한 구조나, 모델별로 너무 독특한 관례는 자동 복원이 어렵다. 그래도 로직을 하나의 아키텍처에 집중시키면, reasoning과 tool marker가 계속 바뀌는 최신 오픈 모델 환경에서 llama.cpp의 agentic 사용성을 더 예측 가능하게 만들 수 있다.
실용적인 예로는 Qwen 3.5 지원이 거론된다. optional parameter의 임의 순서를 처리하는 QoL 수정이 곧 들어와 assistant에서 보이던 read_file loop 문제를 줄일 수 있다는 설명이다. 그래서 이 글은 단순한 내부 정리 이상의 의미를 가진다. 모델 template가 변해도 로컬 agent 스택이 덜 깨지도록 만드는 기반 작업에 가깝다.
Related Articles
병합된 llama.cpp PR은 MCP 서버 선택, tool calls, prompts, resources, agentic loop를 WebUI 스택에 추가하며 로컬 추론을 한층 더 완전한 에이전트 워크플로로 밀어 올린다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
r/LocalLLaMA에서는 `llama.cpp` pull request #19504가 병합된 뒤 Qwen3.5와 Qwen-Next에서 token generation 속도가 좋아졌다는 보고가 올라왔다. PR은 `GATED_DELTA_NET` op의 CPU/CUDA 구현을 추가한다.
Comments (0)
No comments yet. Be the first to comment!