Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

Original: 2.5x faster inference with Qwen 3.6 27B using MTP - Finally a viable option for local agentic coding - 262k context on 48GB - Fixed chat template - Drop-in OpenAI and Anthropic API endpoints View original →

Read in other languages: 한국어 English

LLM May 6, 2026 By Insights AI (Reddit) 1 min read Source

Qwen 3.6 27BにMTPが対応

r/LocalLLaMAで、llama.cppの新しいMTPサポートPRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める詳細ガイドが共有された。M2 Max 96GBでテストされたこのガイドは600点以上の支持を集めた。

主な機能

投機的デコーディングによる2.5倍の速度向上に加え、この構成は48GBのメモリで262,000トークンのコンテキストウィンドウをサポートする。修正されたチャットテンプレート、OpenAIおよびAnthropic APIエンドポイントとのドロップイン互換性、q4_0 KVキャッシュ圧縮が含まれる。

ローカルエージェンティックコーディングへの実用化

著者は「ついにローカルエージェンティックコーディングの実用的な選択肢になった」と評価する。長いコンテキストと高速推論の組み合わせにより、Claude CodeのようなエージェンティックワークフローでのクラウドAPI依存を減らすことができる。

注意点

該当のllama.cpp PRはまだ不安定で議論が続いている。著者はビルドの不安定さを発見後、推奨構成をturbo quantsから標準的なq4_0 KVキャッシュ圧縮に変更した。Hugging Faceからのダウンロードは新バージョンのアップロード完了後を推奨する。

LLM Reddit Apr 29, 2026 1 min read

Qwen3.6のトークン浪費を削るGBNF細工、LocalLLaMAが沸いた理由

LocalLLaMAがすぐ反応したのは、体感に直結する話だったからだ。小さなGBNF制約だけでQwen3.6のreasoning dragを減らし、長い作業のトークン浪費と時間をまとめて削ったという主張が出た。

#qwen #llama.cpp #gbnf

LLM Reddit 2d ago 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

LLM Reddit 1h ago 1 min read

GoogleがGemma 4向けMulti-Token Predictionドラフターを公開、推論速度最大3倍

GoogleがGemma 4モデルファミリー向けのMTPドラフターを公開。投機的デコーディングアーキテクチャにより、出力品質を損なわず推論速度を最大3倍向上させる。

#gemma #google #mtp