Skip to content

#metal

RSS Feed
LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.