llama.cpp WebUI에 MCP agent loop가 들어왔다
Original: The MCP PR for llama.cpp has been merged ! View original →
Reddit 스레드: LocalLLaMA 토론
병합된 PR: llama.cpp PR #18655
이번 LocalLLaMA 글에서 추적할 만한 소식은 llama.cpp PR #18655의 병합이다. PR 제목은 “webui: Agentic Loop + MCP Client with support for Tools, Resources and Prompts”이며, 핵심은 Model Context Protocol 기능을 외부 wrapper에 맡기지 않고 llama.cpp WebUI와 server 흐름 안으로 직접 끌어왔다는 점이다.
병합된 PR이 추가한 것
- MCP server 선택기와 server capability card.
- processing stats를 포함한 tool calls와 agentic loop.
- prompt picker, prompt attachment, resource browser, preview, template.
--webui-mcp-proxy플래그를 통한 llama-server 백엔드 CORS proxy.
이 PR은 기능만 넣은 것이 아니라 UI 개선도 길게 묶고 있다. code block 표시 개선, reasoning과 tool-call의 접이식 표시, attachment 흐름 개선, message statistics 등이 함께 들어갔다. 즉 이것은 문서상으로만 “MCP 지원”을 적어 놓은 수준이 아니라, 브라우저 안에서 prompt, file, resource를 실제로 다루기 위한 사용성 계층까지 포함한다.
전략적 의미도 작지 않다. 로컬 추론 스택이 이제는 hosted product에서 보던 agent tooling과 비슷한 방향으로 수렴하고 있기 때문이다. 이 흐름이 성숙하면 llama.cpp 사용자는 별도 orchestration 제품을 먼저 붙이지 않아도 로컬 모델 서빙에서 tool-aware workflow, prompt composition, structured resource access까지 이어지는 더 완성도 높은 경로를 얻게 된다.
Related Articles
LocalLLaMA에서는 모델 템플릿을 분석해 reasoning·tool-call 형식을 더 적은 커스텀 파서 코드로 지원하려는 llama.cpp autoparser 병합을 주목하고 있다.
Hacker News에서 주목받은 Unsloth의 Qwen3.5 가이드는 27B와 35B-A3B를 포함한 로컬 실행 경로를 메모리 요구량, thinking 제어, llama.cpp 명령 중심으로 정리한다.
새로운 llama.cpp 변경은 <code>--reasoning-budget</code>를 template stub이 아니라 sampler 차원의 실제 제어로 바꾼다. LocalLLaMA thread는 긴 think loop를 줄이는 것과 answer quality를 지키는 것 사이의 tradeoff, 특히 local Qwen 3.5 환경에서의 의미를 집중적으로 논의했다.
Comments (0)
No comments yet. Be the first to comment!