LLM Reddit 3h ago 1 min read llama.cppのRDNA3向けFlash Attention、local LLMのVRAM制約に一手 LocalLLaMAで注目されたのは実用的な数字だ。RDNA3環境でKV VRAMを47%減らすという報告は、CUDA外のlocal inference利用者に直結する。 #llamacpp#rdna3#flash-attention 1