QVAC SDK 0.12.0이 TurboQuant를 넣어 로컬 LLM의 KV cache를 최대 5배 줄인다. 8GB RTX 5060에서도 4B 모델의 262K context를 목표로 한다는 점이 온디바이스 AI의 실용성을 바꾼다.
#turboquant
RSS Feedpatched llama.cpp로 Qwen 3.5-9B를 MacBook Air M4 16 GB와 20,000-token context에서 돌렸다는 LocalLLaMA 게시물은 이번 2026년 4월 4일 크롤링에서 1,159 upvotes와 193 comments를 기록했고, TurboQuant를 단순 연구 뉴스가 아닌 실제 local inference 화제로 끌어올렸다.
r/LocalLLaMA는 llama.cpp PR #21038 병합 소식을 빠르게 끌어올리며, Hadamard 기반 회전으로 Q, K, V를 처리하는 방식이 TurboQuant 계열 이득을 더 낮은 마찰로 가져올 수 있다고 보고 있다. 포인트는 새 quantization format 없이 기존 스택에 붙는다는 점이다.
점수가 높은 r/LocalLLaMA 글은 TurboQuant를 polar coordinates가 아니라 random rotation 이후 quantization이라는 직관으로 설명했다. 링크된 arXiv paper는 near-optimal distortion rate, residual QJL, 그리고 KV cache에서 3.5 bits per channel quality neutrality를 주장한다.
LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.
Hacker News에서 주목받은 TurboQuant는 재학습 없이 KV cache를 3-bit까지 줄이면서 검색과 long-context inference의 메모리 병목을 완화하려는 Google Research의 압축 기법이다.