12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

Original: 80 tok/sec and 128K context on 12GB VRAM with Qwen3.6 35B A3B and llama.cpp MTP View original →

Read in other languages: 한국어English
LLM May 10, 2026 By Insights AI (Reddit) 1 min read Source

注目の成果

r/LocalLLAMAに投稿された記事が大きな注目を集めている。12GBのVRAMを搭載した一般消費者向けGPUで、Qwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かすことに成功した設定だ。350億パラメータのモデルをこの速度で動かすことは、数か月前には困難だった。

鍵となる技術:llama.cpp MTP

最新のllama.cppビルドに追加されたMTP(Multi-Token Prediction)機能が核心だ。ドラフトモデルが複数のトークンを先行予測し、メインモデルがバッチで検証するこの手法は、80%以上のドラフト受け入れ率を達成した。出力品質を維持しながら実効スループットを大幅に向上させる。

設定のポイント

  • モデル:Qwen3.6 35B A3B(量子化版)
  • コンテキスト:128Kトークン
  • 速度:80トークン/秒以上
  • ドラフト受け入れ率:80%以上
  • 必要VRAM:12GB

意義

12GB VRAMはRTX 3060〜4070クラスの一般向けGPUに相当する。このクラスのハードウェアで35Bモデルを実用的な速度で動かせるようになったことは、ローカルAIの民主化において意義深い進歩だ。

Share: Long

Related Articles

LLM Reddit Apr 16, 2026 1 min read

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment