Skip to content

#metal

RSS Feed
LLM Reddit Mar 28, 2026 1 min read

March 28, 2026 の r/LocalLLaMA 投稿は、TurboQuant の KV cache compression を MLX と custom Metal kernel に持ち込んだ実装記録として注目を集めた。投稿者は Qwen2.5-32B on M4 Pro 48GB で 4.6x compression と 0.98x FP16 speed を示したが、repo README の 7B 数値はより保守的で、実益が model と integration detail に強く依存することも見えている。

LLM Reddit Mar 12, 2026 1 min read

r/LocalLLaMAの投稿は、Mac usersをMarch 11, 2026にmergeされたllama.cpp pull request #20361へ導いた。このPRはfused GDN recurrent Metal kernelを追加し、Qwen 3.5系でおよそ12-36%のthroughput向上を示している。一方でReddit commentersは、changeはmasterに入ったが一部のlocal benchmarkではなおMLXが速い場合があると補足した。