LLM Reddit May 10, 2026 1 min read
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。
r/LocalLLaMAの高評価投稿がHeretic 1.2を紹介。4-bit処理によるVRAM削減、MPOA導入、VL対応拡張、進捗自動保存・再開機能が主な更新点として共有された。