12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

注目の成果

r/LocalLLAMAに投稿された記事が大きな注目を集めている。12GBのVRAMを搭載した一般消費者向けGPUで、Qwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かすことに成功した設定だ。350億パラメータのモデルをこの速度で動かすことは、数か月前には困難だった。

鍵となる技術：llama.cpp MTP

最新のllama.cppビルドに追加されたMTP（Multi-Token Prediction）機能が核心だ。ドラフトモデルが複数のトークンを先行予測し、メインモデルがバッチで検証するこの手法は、80%以上のドラフト受け入れ率を達成した。出力品質を維持しながら実効スループットを大幅に向上させる。

設定のポイント

モデル：Qwen3.6 35B A3B（量子化版）
コンテキスト：128Kトークン
速度：80トークン/秒以上
ドラフト受け入れ率：80%以上
必要VRAM：12GB

意義

12GB VRAMはRTX 3060〜4070クラスの一般向けGPUに相当する。このクラスのハードウェアで35Bモデルを実用的な速度で動かせるようになったことは、ローカルAIの民主化において意義深い進歩だ。

LLM Reddit 6d ago 1 min read

llama.cppのMTPサポートがベータ版に、vLLMとの性能差が縮まる見込み

llama.cppのマルチトークン予測（MTP）サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。

#llama-cpp #mtp #local-llm

LLM Reddit 4d ago 1 min read

Qwen 3.6 27BのMTPで推論速度2.5倍、48GBで262kコンテキスト実現

llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。

#qwen #mtp #local-llm

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe