2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.
#llama-cpp
RSS FeedLocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.
2026년 3월 17일 r/LocalLLaMA에 올라온 Hugging Face hf-agents 글은 크롤링 시점 기준 624점과 78개 댓글을 기록했다. 이 extension은 llmfit으로 하드웨어를 감지하고, 적절한 model/quant를 추천한 뒤, llama.cpp와 Pi coding agent를 연결한다.
2026년 3월 17일 r/LocalLLaMA의 Unsloth Studio 글은 최신 사용 가능 크롤 기준 898 points와 236 comments를 기록했다. Unsloth는 Studio를 로컬 추론, 데이터 생성, 파인튜닝, 코드 실행, 모델 내보내기를 한 인터페이스에 담은 베타 웹 UI로 소개한다.
r/LocalLLaMA의 한 현장 보고는 매우 구체적인 local inference workload를 throughput 중심으로 튜닝한 사례를 보여줬다. 작성자는 Qwen 3.5 27B로 markdown 문서를 분류하면서 약 2,000 tokens per second를 기록했다고 했고, 댓글에서는 실전 최적화 포인트가 추가로 논의됐다.
r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.
r/LocalLLaMA에서 llama.cpp GGUF의 NVFP4 지원 PR이 큰 반응을 얻었다. 제한된 VRAM 환경에서 메모리 효율과 추론 속도 개선 가능성이 주된 관심사다.
높은 반응을 얻은 LocalLLaMA 후속 실험 글은 Qwen3.5-35B-A3B를 RTX 5080 환경에서 Q4_K_M, KV q8_0, 배치 플래그 없는 --fit 구성으로 운용할 때 가장 실용적인 결과를 제시했다.
r/LocalLLaMA에서 Qwen3.5-35B-A3B를 단일 RTX 3090 환경으로 테스트한 사례가 큰 반응을 얻었다. 작성자는 100 tokens/s 이상과 실전 코딩 과제 통과를 보고했지만, 댓글에서는 툴 사용 안정성·하드웨어 편차·프롬프트 구성 변수에 따라 결과가 크게 달라진다는 의견도 함께 제기됐다.
r/LocalLLaMA 고반응 글이 ggml.ai 팀의 Hugging Face 합류 소식을 확산시켰다. GitHub 공지는 ggml/llama.cpp의 full-time 유지보수 지속과 Local AI 생태계 확장을 핵심 메시지로 제시했다.
r/LocalLLaMA 인기 기술 글은 2026년 2월 20일 병합된 llama.cpp PR #19765를 공유했다. 해당 변경은 Qwen3-Coder-Next 파싱 문제 대응용 stop-gap으로, parallel tool calling과 JSON schema 지원 보완을 포함한다.
Hacker News 고득점 스레드는 ggml-org/llama.cpp 공지 #19759를 조명했다. ggml.ai 핵심 팀은 Hugging Face에 합류하지만, ggml/llama.cpp는 기존처럼 오픈소스·커뮤니티 중심으로 운영된다고 명시했다.