r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目
Original: Running Qwen3.5-27B locally as the primary model in OpenCode View original →
実際に回るlocal coding stack
2026年3月のr/LocalLLaMA投稿は、Qwen3.5-27BをOpenCodeの主力モデルとして使うための詳細ガイドを押し上げ、クロール時点で126 pointsと45 commentsを記録した。構成はかなり具体的だ。RTX 4090 workstation上でquantized Qwen3.5-27B GGUFをllama.cppで動かし、MacBookをclientにし、Tailscaleでprivate network越しにモデルを公開する。さらにOpenCodeとCodexでのagentic coding利用まで明示的に想定しているため、コミュニティの関心を集めた。
多くのローカル構成が壊れるポイント
このガイドの価値は、ありがちなローカルモデル記事が飛ばしがちな失敗箇所を扱っている点にある。llama.cppをCUDA有効でbuildし、unsloth/Qwen3.5-27B-GGUFのweightとmmproj-F16を取得し、Tailscale addressへbindする前にまずllama-serverをlocalで検証する流れを示す。さらに重要なのは、OpenCodeやCodexでtool useを壊しうるsystem message orderingの問題を避けるため、修正済みのJinja chat templateを使うべきだと明記していることだ。
- 24 GB cardでは既定の262K metadata contextがOOMを招きうるため、ctx-size 65536を明示
- parallelを増やすとslotごとに別のKV cacheが必要になるため、parallel 1を推奨
- cache-type-k bf16、cache-type-v bf16、flash attentionでVRAM使用を抑制
- 筆者はRTX 4090で65,536 context時に約22 GB VRAM使用と報告
なぜこのガイドが重要か
チュートリアルは、見えにくいruntime tradeoffも説明している。Ubatch sizeは主にprompt ingestion時のピークに効き、context-shiftはcontextが埋まると初期instructionを静かに削る可能性があり、embedded chat templateをoverrideすると今後のGGUF template修正は自動反映されない。こうした点こそ、local LLM構成が単なるdemoなのか、日常的に使える道具なのかを分ける。
だからこそLocalLLaMAの反応には意味がある。コミュニティはもはやbenchmarkの数字や「自分の環境では動く」という投稿だけでは満足しない。求められているのは、open modelを使えるcoding infrastructureへ変える再現性の高い運用知だ。このガイドはmodel choice、network exposure、template correction、VRAM managementを一つのworkflowにまとめている。実務的には、「local modelがある」と「agentが実際に使えるlocal modelがある」の差がここにある。
原典: Aayush Gargのガイド。コミュニティ議論: r/LocalLLaMA。
Related Articles
LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
r/LocalLLaMAで、Qwen3.5-35B-A3Bを単一RTX 3090で運用したagentic coding検証が大きな反響を得た。投稿者は100+ tokens/sと実務的なコーディング課題の通過を報告したが、コメントではツール利用の安定性や量子化設定による再現差も指摘されている。