12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成
Original: 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp View original →
達成した成果
LocalLLaMAのユーザーが、RTX 4070 Super 12GB 1枚でQwen3.6 35B A3BモデルをIk_llama.cppを使用して110トークン/秒で実行したベンチマークを公開した。35Bモデルを消費者向けGPUで実用的な速度で実行できることを示した。
なぜ標準llama.cppから切り替えたか
llama.cppでMTP(Multi-Token Prediction)のPRがメインブランチにマージされた後、パフォーマンスが急落した。ik_llama.cppに切り替えたところ性能が大幅に向上した。同じハードウェアと量子化で標準llama.cppが約80〜89 tok/sであるのに対し、ik_llama.cppは110 tok/sを達成した。
ハードウェア仕様
- GPU: RTX 4070 Super 12GB(CUDA 13.1.1)
- CPU: AMD Ryzen 7 9700X
- RAM: 48GB DDR5-6000 EXPO I
- OS: CachyOS with Plasma(X11)
ローカルAIの進化
消費者向けGPU 1枚で35B MoEモデルを110 tok/sで実行できることは、ローカル推論能力が急速に進歩していることを示している。ik_llama.cppはCPUオフロード最適化に強みがあり、GPUのVRAMだけではモデル全体を乗せられない場合のハイブリッド構成で特に効果を発揮する。
Related Articles
最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。
LocalLLaMAが反応したのは新model自慢ではなく、--fitが「VRAMに全部入らなければ遅い」という経験則を揺らしたからだ。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
Comments (0)
No comments yet. Be the first to comment!