Skip to content

#llama-cpp

RSS Feed
LLM Reddit Mar 30, 2026 1 min read

2026년 3월 r/LocalLLaMA에서 126 points와 45 comments를 모은 글은 Qwen3.5-27B를 llama.cpp로 구동하고 OpenCode에 연결하는 실전 가이드를 조명했다. 이 글이 주목받은 이유는 quant 선택, chat-template 수정, VRAM 예산, Tailscale 네트워킹, tool-calling 동작처럼 로컬 coding 환경을 실제로 좌우하는 운영 디테일을 다뤘기 때문이다.

LLM Reddit Mar 27, 2026 2 min read

LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.

LLM Reddit Mar 7, 2026 2 min read

r/LocalLLaMA에서 주목받은 PSA는 Ollama나 LM Studio 같은 편의 레이어가 model behavior를 바꿀 수 있으므로, 새 모델 평가는 먼저 llama.cpp, transformers, vLLM, SGLang 같은 기본 런타임에서 해야 한다고 조언한다. 댓글에서도 핵심은 특정 툴 선호가 아니라 template, stop token, sampling, quantization을 고정한 재현성이라는 점이 강조됐다.

LLM Reddit Feb 26, 2026 1 min read

r/LocalLLaMA에서 Qwen3.5-35B-A3B를 단일 RTX 3090 환경으로 테스트한 사례가 큰 반응을 얻었다. 작성자는 100 tokens/s 이상과 실전 코딩 과제 통과를 보고했지만, 댓글에서는 툴 사용 안정성·하드웨어 편차·프롬프트 구성 변수에 따라 결과가 크게 달라진다는 의견도 함께 제기됐다.