Skip to content

#turboquant

RSS Feed
LLM Reddit Mar 27, 2026 2 min read

LocalLLaMA self-post는 attention weight가 무시 가능한 위치에서 V dequant를 건너뛰는 sparse V dequant 기법을 공개하며, llama.cpp 기반 TurboQuant 구현에서 32K context decode를 22.8% 끌어올렸다고 주장했다. Qwen3.5-35B-A3B와 Apple M5 Max 기준으로 perplexity는 유지됐고 NIAH는 7/9에서 9/9로 개선됐다는 설명이다.