12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

達成した成果

LocalLLaMAのユーザーが、RTX 4070 Super 12GB 1枚でQwen3.6 35B A3BモデルをIk_llama.cppを使用して110トークン/秒で実行したベンチマークを公開した。35Bモデルを消費者向けGPUで実用的な速度で実行できることを示した。

なぜ標準llama.cppから切り替えたか

llama.cppでMTP(Multi-Token Prediction)のPRがメインブランチにマージされた後、パフォーマンスが急落した。ik_llama.cppに切り替えたところ性能が大幅に向上した。同じハードウェアと量子化で標準llama.cppが約80〜89 tok/sであるのに対し、ik_llama.cppは110 tok/sを達成した。

ハードウェア仕様

GPU: RTX 4070 Super 12GB（CUDA 13.1.1）
CPU: AMD Ryzen 7 9700X
RAM: 48GB DDR5-6000 EXPO I
OS: CachyOS with Plasma（X11）

ローカルAIの進化

消費者向けGPU 1枚で35B MoEモデルを110 tok/sで実行できることは、ローカル推論能力が急速に進歩していることを示している。ik_llama.cppはCPUオフロード最適化に強みがあり、GPUのVRAMだけではモデル全体を乗せられない場合のハイブリッド構成で特に効果を発揮する。

LLM Reddit Apr 8, 2026 1 min read

r/LocalLLaMA、Qwen3.5 27Bをlocal inferenceのsweet spotとして評価

最近のr/LocalLLaMA投稿は、Qwen3.5 27Bがqualityとdeployabilityのバランスに優れたlocal modelだと主張する。投稿者はRTX A6000 48GBとllama.cppで約19.7 tokens/secを報告し、commentsではdense 27BとMoEのVRAM economicsが詳しく議論された。

#qwen #local-llm #llama-cpp

LLM Reddit 6d ago 1 min read

GLM5.2を自宅で動かす現実、LocalLLaMAが見たGPU請求書

RTX PRO 6000を5枚と5090を使った構成は、ローカルLLMの魅力と同時に電力、VRAM、予算の重さを示した。

#glm #local-llm #gpu

LLM Reddit Apr 16, 2026 1 min read

よく使うMoE expertをVRAMへ、LocalLLaMAが見た27%高速化

LocalLLaMAが反応したのは、大きなMoE modelを限られたVRAMで動かす時の痛点を現実的に突いていたからだ。投稿者はQwen3.5-122B-A10Bで、最近routeされたexpertを追跡してhotなものだけVRAM cacheに置くllama.cpp forkを試し、同程度の22GB台VRAM使用量でlayer-based offloadよりtoken generationが26.8%速いと共有した。

#local-llm #llama-cpp #moe