12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開
Original: 80 tok/sec and 128K context on 12GB VRAM with Qwen3.6 35B A3B and llama.cpp MTP View original →
注目の成果
r/LocalLLAMAに投稿された記事が大きな注目を集めている。12GBのVRAMを搭載した一般消費者向けGPUで、Qwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かすことに成功した設定だ。350億パラメータのモデルをこの速度で動かすことは、数か月前には困難だった。
鍵となる技術:llama.cpp MTP
最新のllama.cppビルドに追加されたMTP(Multi-Token Prediction)機能が核心だ。ドラフトモデルが複数のトークンを先行予測し、メインモデルがバッチで検証するこの手法は、80%以上のドラフト受け入れ率を達成した。出力品質を維持しながら実効スループットを大幅に向上させる。
設定のポイント
- モデル:Qwen3.6 35B A3B(量子化版)
- コンテキスト:128Kトークン
- 速度:80トークン/秒以上
- ドラフト受け入れ率:80%以上
- 必要VRAM:12GB
意義
12GB VRAMはRTX 3060〜4070クラスの一般向けGPUに相当する。このクラスのハードウェアで35Bモデルを実用的な速度で動かせるようになったことは、ローカルAIの民主化において意義深い進歩だ。
Related Articles
llama.cppのマルチトークン予測(MTP)サポートがベータ版に突入した。現在はQwen3.5 MTPに対応し、テンソル並列サポートと合わせてvLLMとのトークン生成速度の差が縮まると見込まれる。
llama.cppの新MTP対応PRを使ってQwen 3.6 27Bの推論速度を2.5倍に高める方法がLocalLLaMAで共有された。48GBで26万2,000トークンのコンテキストが利用可能になる。
LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。
Comments (0)
No comments yet. Be the first to comment!