Reddit 기술 이슈: llama.cpp PR #19765 병합, Qwen3-Coder-Next 파서 경로 통합 및 Tool Calling 보완
Original: fixed parser for Qwen3-Coder-Next View original →
Reddit에서 공유된 핵심
r/LocalLLaMA의 fixed parser for Qwen3-Coder-Next 게시물은 llama.cpp pull request #19765를 직접 링크했다. 수집 시점 기준 82 upvotes, 36 comments로, 밈보다 실제 런타임 동작 이슈를 다룬 기술형 스레드에 가까웠다.
PR 제목은 common : merge qwen3-coder and nemotron nano 3 parsers이며, 2026-02-20에 생성되어 같은 날 병합됐다. 작성자 설명에 따르면 더 큰 파서 개선 PR이 들어오기 전까지의 stop-gap 성격이다.
변경 내용 요약
- 기존 Qwen3-Coder 파싱 경로를 코드베이스에 이미 존재하던 Nemotron Nano 3 PEG parser 변형으로 대체.
- parallel tool calling 동작 추가.
- JSON schema 지원 관련 문제 수정.
- 이슈 #19382, #19430, #19304 해결 대상으로 명시, #19503 및 #19753 대체(supersede).
코드 영향 범위
GitHub API 기준 변경 파일은 4개, 총 2개 커밋, +154/-602 diff다. 수정 파일은 common/chat-parser.cpp, common/chat.cpp, common/chat.h, tests/test-chat.cpp다. 삭제가 많은 형태라는 점은 분기 확장보다 파서 로직 정리/통합에 무게를 둔 수정으로 해석할 수 있다.
로컬 추론 스택에서는 파서 일관성이 성능 숫자만큼 중요하다. 모델 출력 품질이 좋아도 chat template 해석이 어긋나면 function/tool 호출, structured output, downstream agent loop가 쉽게 깨진다. 그래서 이런 parser patch는 "미세 수정"처럼 보여도 운영 안정성에 미치는 영향이 크다.
실무적 의미
Qwen3-Coder-Next를 사용하는 개발자에게 이번 변경은 실사용 안정화 신호다. 특히 tool-calling 병렬 처리와 schema 지원 보완은 코드 생성 에이전트, 로컬 코파일럿, 자동화 파이프라인에서 재현성 개선에 직접 연결된다.
이 Reddit 글이 유의미한 이유는 주장성 포스트가 아니라 실제 병합된 코드 변경을 근거로 한다는 점이다. 로컬 LLM 운영팀이라면 런타임 업그레이드 시 parser/JSON schema 회귀 테스트를 기본 체크리스트에 포함하는 것이 현실적이다.
Sources: llama.cpp PR #19765, r/LocalLLaMA thread
Related Articles
LocalLLaMA가 이 글을 반긴 이유는 'Gemma 4가 왠지 약하다'로 끝나지 않았기 때문이다. nullable JSON Schema가 빈 type 필드로 납작해지는 구체적 실패 지점을 잡아냈고, 작은 Jinja 수정으로 tool calling이 다시 살아났다.
단종된 Intel Optane 영구 메모리를 중고 시장에서 구입해 768GB RAM 시스템을 구성하고, Kimi K2.5 1조 파라미터 모델을 로컬에서 초당 4토큰 이상으로 실행한 사례가 공개됐다.
LocalLLaMA에서 RTX 4070 Super 12GB로 Qwen3.6 35B A3B 모델을 110 토큰/초로 구동하는 데 성공한 벤치마크가 공유됐습니다. MTP 지원과 CPU 오프로딩 최적화에 특화된 ik_llama.cpp 포크 덕분입니다.