로컬 LLM의 두 번째 벽, QVAC TurboQuant가 KV cache를 5배 압축

로컬 LLM의 병목은 모델 파일만이 아니다. 긴 문서와 대화가 들어오면 KV cache가 VRAM을 먹어치우고, 그 순간 “내 장치에서 돌아가는 AI”는 context limit 앞에서 멈춘다. QVAC SDK 0.12.0은 이 두 번째 벽을 겨냥해 TurboQuant를 opt-in 기능으로 넣었다.

TurboQuant는 Google Research가 ICLR 2026에서 공개한 KV-cache quantization 알고리즘이다. QVAC 설명에 따르면 16-bit KV cache를 값당 약 3-bit 수준으로 줄이면서 LongBench, ZeroSCROLLS, RULER, L-Eval, NIAH 같은 long-context benchmark에서 측정 가능한 정확도 손실을 거의 보이지 않았다. 재학습, calibration, fine-tuning 없이 GGUF로 로드되는 표준 transformer에 적용되는 방식이라는 점도 중요하다.

수치가 눈에 띈다. QVAC은 Qwen3.5-4B를 262K tokens로 돌릴 때 16-bit precision KV data가 약 8GB라고 설명한다. SDK 0.12.0 표에서는 RTX 5060 8GB가 기존 약 120K tokens에서 TurboQuant 적용 시 262K tokens까지 갈 수 있는 것으로 추정했다. RTX 5070 12GB도 약 250K에서 262K full context로 올라간다. RTX 5090 32GB나 Strix Halo 128GB처럼 이미 262K가 가능한 장치도 KV budget 절감 효과를 얻는다.

현재 지원은 AMD와 NVIDIA GPU에 한정되고, iOS, Android, Apple Silicon은 추후 지원으로 적혀 있다. 그래서 오늘의 의미는 “모든 폰에서 frontier급 AI”가 아니라, 로컬 coding assistant, 긴 계약서 분석, 온프레미스 HIPAA/GDPR inference 같은 작업이 더 낮은 하드웨어 문턱을 갖게 됐다는 쪽에 가깝다. cloud API를 사야만 긴 context를 쓸 수 있던 구조가 조금씩 흔들리는 신호다.