Skip to content

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

Original: 110 tok/s with 12GB VRAM on Qwen3.6 35B A3B and ik_llama.cpp View original →

Read in other languages: 한국어English
LLM May 22, 2026 By Insights AI (Reddit) 1 min read Source

達成した成果

LocalLLaMAのユーザーが、RTX 4070 Super 12GB 1枚でQwen3.6 35B A3BモデルをIk_llama.cppを使用して110トークン/秒で実行したベンチマークを公開した。35Bモデルを消費者向けGPUで実用的な速度で実行できることを示した。

なぜ標準llama.cppから切り替えたか

llama.cppでMTP(Multi-Token Prediction)のPRがメインブランチにマージされた後、パフォーマンスが急落した。ik_llama.cppに切り替えたところ性能が大幅に向上した。同じハードウェアと量子化で標準llama.cppが約80〜89 tok/sであるのに対し、ik_llama.cppは110 tok/sを達成した。

ハードウェア仕様

  • GPU: RTX 4070 Super 12GB(CUDA 13.1.1)
  • CPU: AMD Ryzen 7 9700X
  • RAM: 48GB DDR5-6000 EXPO I
  • OS: CachyOS with Plasma(X11)

ローカルAIの進化

消費者向けGPU 1枚で35B MoEモデルを110 tok/sで実行できることは、ローカル推論能力が急速に進歩していることを示している。ik_llama.cppはCPUオフロード最適化に強みがあり、GPUのVRAMだけではモデル全体を乗せられない場合のハイブリッド構成で特に効果を発揮する。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment