Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現
Original: 2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints View original →
Qwen 3.6 27BにMTPが対応
r/LocalLLaMAで、llama.cppの新しいMTPサポートPRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める詳細ガイドが共有された。M2 Max 96GBでテストされたこのガイドは600点以上の支持を集めた。
主な機能
投機的デコーディングによる2.5倍の速度向上に加え、この構成は48GBのメモリで262,000トークンのコンテキストウィンドウをサポートする。修正されたチャットテンプレート、OpenAIおよびAnthropic APIエンドポイントとのドロップイン互換性、q4_0 KVキャッシュ圧縮が含まれる。
ローカルエージェンティックコーディングへの実用化
著者は「ついにローカルエージェンティックコーディングの実用的な選択肢になった」と評価する。長いコンテキストと高速推論の組み合わせにより、Claude CodeのようなエージェンティックワークフローでのクラウドAPI依存を減らすことができる。
注意点
該当のllama.cpp PRはまだ不安定で議論が続いている。著者はビルドの不安定さを発見後、推奨構成をturbo quantsから標準的なq4_0 KVキャッシュ圧縮に変更した。Hugging Faceからのダウンロードは新バージョンのアップロード完了後を推奨する。
Related Articles
LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。
Comments (0)
No comments yet. Be the first to comment!