#vram-optimization

RSSフィード

LLM Reddit May 10, 2026 1 min read

12GB VRAMでQwen3.6 35Bを毎秒80トークン以上で動かす設定を公開

LocalLLAMAユーザーが、llama.cppのMTP機能を使い、12GB VRAMのGPUでQwen3.6 35B A3Bモデルを毎秒80トークン超・128Kコンテキストで動かす設定を公開した。

#local-llm #qwen #llama-cpp

24

LLM Reddit Feb 15, 2026 1 min read

r/LocalLLaMAでHeretic 1.2公開: 4-bit運用とMPOA対応でローカル実験を効率化

r/LocalLLaMAの高評価投稿がHeretic 1.2を紹介。4-bit処理によるVRAM削減、MPOA導入、VL対応拡張、進捗自動保存・再開機能が主な更新点として共有された。

#localllm #quantization #lora

20