r/LocalLLaMA가 주목한 TurboQuant on MLX, KV cache compression이 FP16 speed에 근접
Original: TurboQuant on MLX: 4.6x KV cache compression with custom Metal kernels (Qwen 32B at 98% FP16 speed) View original →
왜 r/LocalLLaMA가 반응했는가
March 28, 2026에 traction을 얻은 r/LocalLLaMA 게시물은 단순한 paper 공유가 아니었다. 작성자는 TurboQuant 계열 KV cache compression을 MLX에 이식하고, custom Metal kernel과 함께 code, writeup, 그리고 upstream PR까지 공개했다. 이 차이가 중요하다. LocalLLaMA community가 원하는 것은 abstract한 long-context efficiency claim이 아니라, Apple Silicon 위의 실제 local inference stack에서 살아남는 구현이기 때문이다.
Reddit 게시물과 Medium writeup은 Qwen2.5-32B를 M4 Pro 48GB에서 돌렸을 때 4.6x KV cache compression, 0.98x FP16 speed, 그리고 16K context 기준 4.2GB에서 897MB로 내려가는 memory 절감을 제시한다. 작성자 설명에 따르면 병목은 이론보다 구현에 더 가까웠다. fused Metal quantize/dequantize kernel, full cache를 매 decode step마다 다시 풀지 않게 하는 incremental decode buffer, 그리고 Python 대신 GPU 안에서 bit extraction을 처리한 점이 핵심 최적화였다. 그 결과 속도는 0.28x FP16 수준에서 거의 parity까지 올라갔다.
어디까지 믿어야 하나
기반이 되는 TurboQuant 논문은 분명 기술적으로 흥미롭다. randomized rotation과 quantization을 결합해 distortion를 줄이면서 vector를 압축하고, KV cache에 대해서도 3.5 bits per channel 부근에서 quality neutrality에 가깝다고 주장한다. 다만 shipping 관점에서는 이야기가 더 복잡하다. repo README에는 7B model의 layer-adaptive mode에서 1.9x에서 2.4x compression, 그리고 FP16보다 낮은 속도가 적혀 있다. 이것은 Reddit 결과를 부정한다기보다, model size, layer sensitivity, implementation detail이 실제 체감 이득을 크게 바꾼다는 뜻에 가깝다.
바로 그 점 때문에 이 게시물이 community에서 먹혔다. LocalLLaMA 사용자들은 clever한 paper 자체보다, consumer hardware에서 longer context를 현실적으로 늘려 줄 경로를 원한다. 다음 관전 포인트는 mlx-lm PR이 실제로 upstream에 반영되는지, 그리고 broader한 perplexity 혹은 needle-in-a-haystack benchmark가 headline number를 지지하는지다. 그 검증이 따라온다면, TurboQuant on MLX는 2026년 Apple Silicon local LLM inference에서 꽤 실용적인 upgrade 후보가 될 수 있다.
Related Articles
LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.
Hacker News에서 주목받은 Flash-MoE는 SSD 스트리밍과 Metal 커널을 이용해 Qwen3.5-397B-A17B를 48GB M3 Max 노트북에서 대화 가능한 속도로 실행하는 방법을 공개했다.
r/LocalLLaMA의 rerun benchmark는 Apple M5 Max가 token generation보다 prompt processing에서 더 큰 이득을 보인다고 주장한다. 특히 Qwen 3.5 35B-A3B MoE는 2,845 tok/s PP512와 92.2 tok/s generation을 기록했다고 post author가 설명한다.
Comments (0)
No comments yet. Be the first to comment!