#inference-speed - Insights

LLM Reddit May 22, 2026 1 min read

12GB VRAMでQwen3.6 35BをIk_llama.cppで110 tok/s達成

LocalLLaMAコミュニティユーザーがRTX 4070 Super 12GBでQwen3.6 35B A3BモデルをIk_llama.cppフォークを使用して110トークン/秒で実行することに成功しました。CPU オフロード最適化に優れたこのフォークは標準llama.cppより大幅に高いパフォーマンスを示しました。

#llama-cpp #qwen #local-llm