#turboquant

LLM Jun 2, 2026 1 min read

로컬 LLM의 두 번째 벽, QVAC TurboQuant가 KV cache를 5배 압축

QVAC SDK 0.12.0이 TurboQuant를 넣어 로컬 LLM의 KV cache를 최대 5배 줄인다. 8GB RTX 5060에서도 4B 모델의 262K context를 목표로 한다는 점이 온디바이스 AI의 실용성을 바꾼다.

#qvac #turboquant #local-ai

LLM Reddit Apr 3, 2026 2 min read

LocalLLaMA가 주목한 TurboQuant-on-Mac, 소비자용 hardware 신호로 부상

patched llama.cpp로 Qwen 3.5-9B를 MacBook Air M4 16 GB와 20,000-token context에서 돌렸다는 LocalLLaMA 게시물은 이번 2026년 4월 4일 크롤링에서 1,159 upvotes와 193 comments를 기록했고, TurboQuant를 단순 연구 뉴스가 아닌 실제 local inference 화제로 끌어올렸다.

#turboquant #qwen #llama-cpp

LLM Reddit Apr 2, 2026 1 min read

Reddit가 주목한 llama.cpp의 attn-rot, 저비용 quantization 개선

r/LocalLLaMA는 llama.cpp PR #21038 병합 소식을 빠르게 끌어올리며, Hadamard 기반 회전으로 Q, K, V를 처리하는 방식이 TurboQuant 계열 이득을 더 낮은 마찰로 가져올 수 있다고 보고 있다. 포인트는 새 quantization format 없이 기존 스택에 붙는다는 점이다.

#llama.cpp #turboquant #kv-cache

LLM Reddit Mar 29, 2026 1 min read

r/LocalLLaMA가 압축한 TurboQuant의 핵심, rotate한 뒤 quantize하기

점수가 높은 r/LocalLLaMA 글은 TurboQuant를 polar coordinates가 아니라 random rotation 이후 quantization이라는 직관으로 설명했다. 링크된 arXiv paper는 near-optimal distortion rate, residual QJL, 그리고 KV cache에서 3.5 bits per channel quality neutrality를 주장한다.

#turboquant #quantization #kv-cache

LLM Reddit Mar 27, 2026 2 min read

LocalLLaMA가 주목한 TurboQuant 구현, sparse V dequant로 32K decode 22.8% 개선

LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.

#llm-inference #kv-cache #llama-cpp