r/LocalLLaMA가 주목한 TurboQuant on MLX, KV cache compression이 FP16 speed에 근접

왜 r/LocalLLaMA가 반응했는가

March 28, 2026에 traction을 얻은 r/LocalLLaMA 게시물은 단순한 paper 공유가 아니었다. 작성자는 TurboQuant 계열 KV cache compression을 MLX에 이식하고, custom Metal kernel과 함께 code, writeup, 그리고 upstream PR까지 공개했다. 이 차이가 중요하다. LocalLLaMA community가 원하는 것은 abstract한 long-context efficiency claim이 아니라, Apple Silicon 위의 실제 local inference stack에서 살아남는 구현이기 때문이다.

Reddit 게시물과 Medium writeup은 Qwen2.5-32B를 M4 Pro 48GB에서 돌렸을 때 4.6x KV cache compression, 0.98x FP16 speed, 그리고 16K context 기준 4.2GB에서 897MB로 내려가는 memory 절감을 제시한다. 작성자 설명에 따르면 병목은 이론보다 구현에 더 가까웠다. fused Metal quantize/dequantize kernel, full cache를 매 decode step마다 다시 풀지 않게 하는 incremental decode buffer, 그리고 Python 대신 GPU 안에서 bit extraction을 처리한 점이 핵심 최적화였다. 그 결과 속도는 0.28x FP16 수준에서 거의 parity까지 올라갔다.

어디까지 믿어야 하나

기반이 되는 TurboQuant 논문은 분명 기술적으로 흥미롭다. randomized rotation과 quantization을 결합해 distortion를 줄이면서 vector를 압축하고, KV cache에 대해서도 3.5 bits per channel 부근에서 quality neutrality에 가깝다고 주장한다. 다만 shipping 관점에서는 이야기가 더 복잡하다. repo README에는 7B model의 layer-adaptive mode에서 1.9x에서 2.4x compression, 그리고 FP16보다 낮은 속도가 적혀 있다. 이것은 Reddit 결과를 부정한다기보다, model size, layer sensitivity, implementation detail이 실제 체감 이득을 크게 바꾼다는 뜻에 가깝다.

바로 그 점 때문에 이 게시물이 community에서 먹혔다. LocalLLaMA 사용자들은 clever한 paper 자체보다, consumer hardware에서 longer context를 현실적으로 늘려 줄 경로를 원한다. 다음 관전 포인트는 mlx-lm PR이 실제로 upstream에 반영되는지, 그리고 broader한 perplexity 혹은 needle-in-a-haystack benchmark가 headline number를 지지하는지다. 그 검증이 따라온다면, TurboQuant on MLX는 2026년 Apple Silicon local LLM inference에서 꽤 실용적인 upgrade 후보가 될 수 있다.

r/LocalLLaMA가 주목한 TurboQuant on MLX, KV cache compression이 FP16 speed에 근접

왜 r/LocalLLaMA가 반응했는가

어디까지 믿어야 하나

Related Articles

LocalLLaMA, Apple Silicon에서 DFlash로 Qwen 추론 2~3배 가속 보고

Reddit, Mac용 Qwen 3.5 llama.cpp Metal speedup를 주목하다

Flash-MoE, 48GB MacBook Pro에서 397B Qwen 모델 구동 실험 공개

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA, Apple Silicon에서 DFlash로 Qwen 추론 2~3배 가속 보고
LLM Reddit Apr 11, 2026 2 min read

Reddit, Mac용 Qwen 3.5 llama.cpp Metal speedup를 주목하다
LLM Reddit Mar 12, 2026 1 min read

Flash-MoE, 48GB MacBook Pro에서 397B Qwen 모델 구동 실험 공개
LLM Hacker News Mar 23, 2026 2 min read