Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
Original: 2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints View original →
Qwen 3.6 27BにMTPが対応
r/LocalLLaMAで、llama.cppの新しいMTPサポートPRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める詳細ガイドが共有された。M2 Max 96GBでテストされたこのガイドは600点以上の支持を集めた。
主な機能
投機的デコーディングによる2.5倍の速度向上に加え、この構成は48GBのメモリで262,000トークンのコンテキストウィンドウをサポートする。修正されたチャットテンプレート、OpenAIおよびAnthropic APIエンドポイントとのドロップイン互換性、q4_0 KVキャッシュ圧縮が含まれる。
ローカルエージェンティックコーディングへの実用化
著者は「ついにローカルエージェンティックコーディングの実用的な選択肢になった」と評価する。長いコンテキストと高速推論の組み合わせにより、Claude CodeのようなエージェンティックワークフローでのクラウドAPI依存を減らすことができる。
注意点
該当のllama.cpp PRはまだ不安定で議論が続いている。著者はビルドの不安定さを発見後、推奨構成をturbo quantsから標準的なq4_0 KVキャッシュ圧縮に変更した。Hugging Faceからのダウンロードは新バージョンのアップロード完了後を推奨する。
Related Articles
Alex Ellisの記事は、local LLMをベンチマーク順位ではなく、事業でのコスト、制御、agent運用の信頼性から捉えた点で読まれた。
LocalLLaMAで注目されたのは速度の数字だけでなく、FP4、DFlash、commodity GPU向けkernelが外部でも検証できるかだった。
LocalLLaMAで注目されたのは、小さく見えるvLLM nightlyのparser修正だ。Qwen3.6-27Bのmid-turn停止やstreaming tool call失敗は、local agent loopでは実害が大きい。