LLM Reddit Apr 2, 2026 1 min read
r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。
r/LocalLLaMAでは、llama.cpp PR #21038 のマージが素早く共有され、Hadamardベースの回転で Q、K、V を処理する方式が TurboQuant 系の利得をより低い摩擦で持ち込めると受け止められている。要点は、新しい quantization format を増やさず既存スタックに乗ることだ。