LLM 3h ago 1 min read
QVAC SDK 0.12.0이 TurboQuant를 넣어 로컬 LLM의 KV cache를 최대 5배 줄인다. 8GB RTX 5060에서도 4B 모델의 262K context를 목표로 한다는 점이 온디바이스 AI의 실용성을 바꾼다.
QVAC SDK 0.12.0이 TurboQuant를 넣어 로컬 LLM의 KV cache를 최대 5배 줄인다. 8GB RTX 5060에서도 4B 모델의 262K context를 목표로 한다는 점이 온디바이스 AI의 실용성을 바꾼다.