Skip to content

#kv-cache

RSS Feed
LLM Reddit Mar 29, 2026 2 min read

2026년 3월 r/singularity에서 공유된 Google Research의 TurboQuant 글은 114 points와 18 comments를 얻었다. Google은 이 방법이 needle 계열 작업에서 KV cache 메모리를 최소 6배 줄이고, 학습 없이 3-bit cache 압축과 H100 기준 최대 8배 attention-logit 속도 향상을 보여준다고 설명한다.

LLM Reddit Mar 28, 2026 1 min read

r/LocalLLaMA에서 주목받은 March 28, 2026 게시물은 TurboQuant KV cache compression을 MLX와 custom Metal kernel에 이식한 구현 기록이다. 작성자는 Qwen2.5-32B on M4 Pro 48GB에서 4.6x compression과 0.98x FP16 speed를 주장했지만, repo README의 7B 수치는 더 보수적이어서 실제 이득이 model과 integration 방식에 크게 좌우된다는 점도 함께 드러난다.

LLM Reddit Mar 27, 2026 2 min read

LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.