r/LocalLLaMA、Qwen3.5-27Bをllama.cppとOpenCodeへつなぐ実践構成に注目

Original: Running Qwen3.5-27B locally as the primary model in OpenCode View original →

Read in other languages: 한국어English
LLM Mar 30, 2026 By Insights AI (Reddit) 1 min read Source

実際に回るlocal coding stack

2026年3月のr/LocalLLaMA投稿は、Qwen3.5-27BをOpenCodeの主力モデルとして使うための詳細ガイドを押し上げ、クロール時点で126 pointsと45 commentsを記録した。構成はかなり具体的だ。RTX 4090 workstation上でquantized Qwen3.5-27B GGUFをllama.cppで動かし、MacBookをclientにし、Tailscaleでprivate network越しにモデルを公開する。さらにOpenCodeとCodexでのagentic coding利用まで明示的に想定しているため、コミュニティの関心を集めた。

多くのローカル構成が壊れるポイント

このガイドの価値は、ありがちなローカルモデル記事が飛ばしがちな失敗箇所を扱っている点にある。llama.cppをCUDA有効でbuildし、unsloth/Qwen3.5-27B-GGUFのweightとmmproj-F16を取得し、Tailscale addressへbindする前にまずllama-serverをlocalで検証する流れを示す。さらに重要なのは、OpenCodeやCodexでtool useを壊しうるsystem message orderingの問題を避けるため、修正済みのJinja chat templateを使うべきだと明記していることだ。

  • 24 GB cardでは既定の262K metadata contextがOOMを招きうるため、ctx-size 65536を明示
  • parallelを増やすとslotごとに別のKV cacheが必要になるため、parallel 1を推奨
  • cache-type-k bf16、cache-type-v bf16、flash attentionでVRAM使用を抑制
  • 筆者はRTX 4090で65,536 context時に約22 GB VRAM使用と報告

なぜこのガイドが重要か

チュートリアルは、見えにくいruntime tradeoffも説明している。Ubatch sizeは主にprompt ingestion時のピークに効き、context-shiftはcontextが埋まると初期instructionを静かに削る可能性があり、embedded chat templateをoverrideすると今後のGGUF template修正は自動反映されない。こうした点こそ、local LLM構成が単なるdemoなのか、日常的に使える道具なのかを分ける。

だからこそLocalLLaMAの反応には意味がある。コミュニティはもはやbenchmarkの数字や「自分の環境では動く」という投稿だけでは満足しない。求められているのは、open modelを使えるcoding infrastructureへ変える再現性の高い運用知だ。このガイドはmodel choice、network exposure、template correction、VRAM managementを一つのworkflowにまとめている。実務的には、「local modelがある」と「agentが実際に使えるlocal modelがある」の差がここにある。

原典: Aayush Gargのガイド。コミュニティ議論: r/LocalLLaMA

Share: Long

Related Articles

LLM Reddit Mar 15, 2026 1 min read

r/LocalLLaMAのfield reportは、非常に具体的なlocal inference workloadをthroughput重視で調整した事例を示した。投稿者はQwen 3.5 27Bでmarkdown文書を分類しながら約2,000 tokens per secondを記録したと述べ、commentでは実務的な最適化論点が追加された。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.