#metal

LLM Reddit Mar 30, 2026 1 min read

r/LocalLLaMA, M5 Max에서 Qwen3.5-397B를 20.34 tok/s까지 끌어올린 autoresearch 공개

M5 Max 128GB에서 Qwen3.5-397B를 SSD streaming으로 20.34 tok/s까지 올린 실험 보고서가 r/LocalLLaMA에서 화제가 됐고, I/O 분산, temporal expert prediction, Q3-GGUF quantization이 핵심 개선점으로 제시됐다.

#qwen #apple-silicon #inference

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA가 주목한 TurboQuant on MLX, KV cache compression이 FP16 speed에 근접

r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.

#mlx #kv-cache #metal

LLM Hacker News Mar 23, 2026 2 min read

Flash-MoE, 48GB MacBook Pro에서 397B Qwen 모델 구동 실험 공개

Hacker News에서 주목받은 Flash-MoE는 SSD 스트리밍과 Metal 커널을 이용해 Qwen3.5-397B-A17B를 48GB M3 Max 노트북에서 대화 가능한 속도로 실행하는 방법을 공개했다.

#llm #mixture-of-experts #metal

LLM Reddit Mar 12, 2026 1 min read

Reddit, Mac용 Qwen 3.5 llama.cpp Metal speedup를 주목하다

r/LocalLLaMA 게시글은 Mac 사용자를 March 11, 2026에 merge된 llama.cpp pull request #20361로 이끌었다. 이 PR은 fused GDN recurrent Metal kernel을 추가하며, Qwen 3.5 계열에서 대략 12-36% throughput 향상을 제시한다. Reddit commenters는 change가 master에는 들어갔지만 일부 local benchmark에서는 여전히 MLX가 더 빠를 수 있다고 덧붙였다.

#llama.cpp #qwen #apple-silicon