r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

실제로 굴러가는 local coding stack

2026년 3월 r/LocalLLaMA 게시물은 Qwen3.5-27B를 OpenCode의 주 모델로 쓰기 위한 자세한 배포 가이드를 끌어올렸고, 크롤링 시점 기준 126 points와 45 comments를 기록했다. 구성은 매우 구체적이다. RTX 4090 workstation에서 quantized Qwen3.5-27B GGUF를 llama.cpp로 돌리고, MacBook을 client로 두며, Tailscale로 private network를 통해 모델을 노출한다. 게다가 OpenCode와 Codex를 활용한 agentic coding 사용까지 명시적으로 겨냥하고 있어 커뮤니티 반응을 얻었다.

보통 여기서 많이 깨진다

이 글이 가치 있는 이유는 일반적인 로컬 모델 튜토리얼이 자주 건너뛰는 실패 지점을 다루기 때문이다. llama.cpp를 CUDA 지원으로 빌드하고, unsloth/Qwen3.5-27B-GGUF weight와 mmproj-F16 파일을 받고, Tailscale address에 bind하기 전에 llama-server를 먼저 local에서 검증하라고 안내한다. 더 중요한 부분은 OpenCode와 Codex의 tool use를 깨뜨릴 수 있는 system message ordering 문제를 잡기 위해 수정된 Jinja chat template를 써야 한다는 점이다.

24 GB card에서는 기본 262K metadata context가 OOM을 유발할 수 있어 ctx-size 65536을 명시
parallel 값을 늘리면 slot마다 별도 KV cache를 잡기 때문에 parallel 1을 권장
cache-type-k bf16, cache-type-v bf16, flash attention을 함께 써 VRAM 사용량을 관리
저자는 RTX 4090에서 65,536 context 기준 약 22 GB VRAM 사용을 보고

왜 이 가이드가 중요한가

튜토리얼은 덜 눈에 띄는 runtime tradeoff도 설명한다. Ubatch size는 주로 prompt ingestion 순간의 피크에 영향을 주고, context-shift는 context가 가득 찼을 때 초기 instruction을 조용히 잘라낼 수 있으며, embedded chat template를 override하면 이후 GGUF template 수정이 자동으로 따라오지 않는다. 이런 디테일이야말로 local LLM 구성이 단순 demo인지, 실제 매일 쓰는 도구인지 갈라놓는다.

그래서 LocalLLaMA 반응이 의미 있다. 커뮤니티는 더 이상 benchmark 숫자만 보거나 “내 컴퓨터에서는 된다” 수준의 글에 만족하지 않는다. 독자들이 원하는 것은 open model을 usable한 coding infrastructure로 바꾸는 신뢰 가능한 운영 가이드다. 이 글은 model choice, network exposure, template correction, VRAM management를 하나의 workflow로 묶어 보여준다. 실전에서는 “local model이 있다”와 “agent가 실제로 쓸 수 있는 local model이 있다” 사이의 차이가 바로 여기에 있다.

원문: Aayush Garg 가이드. 커뮤니티 토론: r/LocalLLaMA.

r/LocalLLaMA, Qwen3.5-27B를 llama.cpp와 OpenCode에 붙이는 실전 구성 주목

실제로 굴러가는 local coding stack

보통 여기서 많이 깨진다

왜 이 가이드가 중요한가

Related Articles

LocalLLaMA가 파고든 RYS II, Qwen3.5-27B 반복 레이어 실험의 함의

Qwen 3.5 Small 출시: 로컬 AI의 새로운 기준

Qwen 3.5-35B-A3B, GPT-OSS-120B 대체하는 최고 로컬 LLM으로 부상

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 파고든 RYS II, Qwen3.5-27B 반복 레이어 실험의 함의

Qwen 3.5 Small 출시: 로컬 AI의 새로운 기준
LLM Reddit Mar 2, 2026 1 min read

Qwen 3.5-35B-A3B, GPT-OSS-120B 대체하는 최고 로컬 LLM으로 부상
LLM Reddit Mar 1, 2026 1 min read