ローカルモデル、趣味の実行環境からcoding workflowへ
Original: Running local models is good now View original →
ローカルLLMへの関心は、モデルを手元で動かせるという珍しさから、実際のcoding workflowに入れられるかという段階へ移っている。Vicki Boykisは、2022年のM2 Mac 64GB RAM環境でMistral 7B、Gemma 3、OpenAI OSS-20B、Qwen 3 MoE、Qwen 2.5 Coderなどを試してきた経験を整理した。
現在の構成は、Piをagent harness、LM Studioをlocal inference serverとして使うものだ。Docker内でagentic workflowを走らせ、ファイルシステムへのアクセスを制限する。使い道は派手な自律開発ではなく、notebookを5〜6個のmoduleへ分けるrefactor、Python型ヒントの修正、unit test作成、blog postの校正、小さなrecommendation model repoの立ち上げなどだ。
著者の体感では、最近のGemma 4系によりlocal agentic codingがfrontier modelの約75%程度の精度と速度で回るようになったという。ただし、この数字はbenchmarkではなく個人の実務感覚だ。記事自体も、local modelが万能になったというより、以前なら無理だった軽量な開発作業が手元で成立し始めたという話に近い。
HNのコメントは、その期待に現実的な注釈を付けた。Qwen3.6 27BやGemma系を日常的に使う人がいる一方で、dense modelは賢いが遅く、MoE modelは速いがミスが増えるという指摘が多い。4-bit quantizationで動かすとtool callingが弱くなる、context windowが小さい、曖昧な作業ではfrontier modelとの差がまだ大きい、という声も目立った。
実用的な落としどころはhybrid workflowだ。大きな設計や曖昧な判断はクラウドのfrontier modelに任せ、明確な編集、要約、ドキュメント確認、小さく分けた実装はlocal modelに渡す。API費用を抑え、機密コードを外へ出さない利点もある。
重要なのはモデル単体ではなく、LM Studio、Ollama、llama.cpp、Piのような周辺ツールが整ってきたことだ。prompt template、context window、quantization、tokenの流れを開発者が直接見られる。今回の反応は、local modelが勝ったという話ではない。開発者が作業道具として真面目に比較する段階に入ったという合図だ。
Related Articles
LocalLLaMAで注目されたのは、小さく見えるvLLM nightlyのparser修正だ。Qwen3.6-27Bのmid-turn停止やstreaming tool call失敗は、local agent loopでは実害が大きい。
r/LocalLLaMAで、Qwen3.5-35B-A3Bを単一RTX 3090で運用したagentic coding検証が大きな反響を得た。投稿者は100+ tokens/sと実務的なコーディング課題の通過を報告したが、コメントではツール利用の安定性や量子化設定による再現差も指摘されている。
LocalLLaMAでは速度比較というより、長くて厳しい生成タスクを最後まで壊さず仕上げられるかが論点になった。同じMacBook Pro M5 Max上で、Qwen 3.6 27Bは速く長く書き、Gemma 4 31Bは少ないトークンでゲームロジックをまとめきった。