Reddit, Mac용 Qwen 3.5 llama.cpp Metal speedup를 주목하다

Original: Mac users should update llama.cpp to get a big speed boost on Qwen 3.5 View original →

Read in other languages: English日本語
LLM Mar 12, 2026 By Insights AI (Reddit) 1 min read Source

llama.cpp에서 바뀐 점

집중도 높은 r/LocalLLaMA thread는 Mac 사용자를 llama.cpp pull request #20361로 보냈다. 제목은 metal: add GDN kernel이다. 이 PR은 March 11, 2026에 merge됐고, Metal backend에 fused GDN recurrent kernel을 추가한다. 변경은 대부분 ggml-metal 경로에 집중돼 있으며 ggml-metal.metal에 큰 수정이 들어가 있다. 즉 단순한 tuning patch가 아니라 backend optimization에 가깝다.

Reddit 글이 빠르게 퍼진 이유는 PR 안의 benchmark table이 분명했기 때문이다. Qwen35 27B Q8_0는 pp512에서 349.12에서 390.39 tokens per second로, pp2048에서는 363.75에서 406.81로 올라간다. 둘 다 대략 12 percent uplift다. tg32에서는 17.03에서 20.36 tokens per second로 약 20 percent 개선된다. Qwen35moe 35B.A3B Q4_0는 더 큰 폭이다. pp512는 1612.12에서 2058.31, pp2048는 1879.76에서 2462.35, tg32는 57.08에서 77.65로 올라가며 대략 28에서 36 percent 범위의 향상을 보인다. PR은 Kimi Linear에서 더 큰 개선도 적어 두었지만, LocalLLaMA가 Qwen 3.5에 주목한 것은 Mac local inference 실사용과 더 직접적으로 연결되기 때문이다.

thread가 더해 준 맥락

Reddit comments는 운영 관점의 맥락을 더했다. 한 commenter는 side branch에만 있는 줄 알았던 patch가 결국 master에 merge됐다고 정리했다. 또 다른 이는 merged source tree와 released binary 사이에는 약간의 시간차가 있을 수 있다고 짚었다. 가장 실용적인 비교는 64 GB 메모리의 M1 Max에서 4-bit Qwen3.5-35B-A3B를 돌린 사용자가 남겼다. 그 환경에서는 여전히 MLX가 GGUF보다 빨랐다는 것이다. 이 말은 PR 숫자를 부정하지 않는다. 다만 이것이 llama.cpp 내부의 의미 있는 backend improvement이지, 모든 Mac inference stack이 한 번에 동등해졌다는 뜻은 아니라는 점을 분명히 해 준다.

왜 중요한가

local model 사용자에게 이런 최적화는 일상적인 사용감 자체를 바꾼다. prompt processing, token generation, long session 전반에 걸쳐 작은 percent gain이 누적되기 때문이다. 동시에 이 thread는 Mac inference ecosystem이 여전히 경쟁적이라는 사실도 보여준다. ggml, MLX, quantization format, model architecture가 최종 체감 속도를 함께 결정한다. Reddit가 강조한 메시지는 단순하다. Apple Silicon에서 Qwen 3.5를 llama.cpp로 돌린다면, March 11, 2026의 이 backend update는 가까이 추적할 가치가 있다는 것이다.

Source post: r/LocalLLaMA thread. Primary source: llama.cpp PR #20361.

Share:

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.