r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

実際に回るlocal coding stack

2026年3月のr/LocalLLaMA投稿は、Qwen3.5-27BをOpenCodeの主力モデルとして使うための詳細ガイドを押し上げ、クロール時点で126 pointsと45 commentsを記録した。構成はかなり具体的だ。RTX 4090 workstation上でquantized Qwen3.5-27B GGUFをllama.cppで動かし、MacBookをclientにし、Tailscaleでprivate network越しにモデルを公開する。さらにOpenCodeとCodexでのagentic coding利用まで明示的に想定しているため、コミュニティの関心を集めた。

多くのローカル構成が壊れるポイント

このガイドの価値は、ありがちなローカルモデル記事が飛ばしがちな失敗箇所を扱っている点にある。llama.cppをCUDA有効でbuildし、unsloth/Qwen3.5-27B-GGUFのweightとmmproj-F16を取得し、Tailscale addressへbindする前にまずllama-serverをlocalで検証する流れを示す。さらに重要なのは、OpenCodeやCodexでtool useを壊しうるsystem message orderingの問題を避けるため、修正済みのJinja chat templateを使うべきだと明記していることだ。

24 GB cardでは既定の262K metadata contextがOOMを招きうるため、ctx-size 65536を明示
parallelを増やすとslotごとに別のKV cacheが必要になるため、parallel 1を推奨
cache-type-k bf16、cache-type-v bf16、flash attentionでVRAM使用を抑制
筆者はRTX 4090で65,536 context時に約22 GB VRAM使用と報告

なぜこのガイドが重要か

チュートリアルは、見えにくいruntime tradeoffも説明している。Ubatch sizeは主にprompt ingestion時のピークに効き、context-shiftはcontextが埋まると初期instructionを静かに削る可能性があり、embedded chat templateをoverrideすると今後のGGUF template修正は自動反映されない。こうした点こそ、local LLM構成が単なるdemoなのか、日常的に使える道具なのかを分ける。

だからこそLocalLLaMAの反応には意味がある。コミュニティはもはやbenchmarkの数字や「自分の環境では動く」という投稿だけでは満足しない。求められているのは、open modelを使えるcoding infrastructureへ変える再現性の高い運用知だ。このガイドはmodel choice、network exposure、template correction、VRAM managementを一つのworkflowにまとめている。実務的には、「local modelがある」と「agentが実際に使えるlocal modelがある」の差がここにある。

原典: Aayush Gargのガイド。コミュニティ議論: r/LocalLLaMA。

r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

実際に回るlocal coding stack

多くのローカル構成が壊れるポイント

なぜこのガイドが重要か

Related Articles

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告

Related Articles

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成
LLM Reddit May 22, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価
LLM Reddit Apr 8, 2026 1 min read

LocalLLaMAでQwen3.5-35B-A3B検証、agentic codingで100+ t/s報告
LLM Reddit Feb 26, 2026 1 min read