AI X/Twitter Apr 18, 2026 1 min read
중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.
중요한 점은 Cloudflare가 GPU를 더 사는 문제가 아니라 LLM serving의 memory-bandwidth 병목을 직접 줄이려 한다는 데 있다. 글은 Llama 3.1 8B에서 15-22% 모델 크기 감소, 약 3GB VRAM 절감, 공개 GPU kernel을 제시한다.
r/LocalLLaMA에서 주목받은 TurboQuant는 KV cache를 3-bit로 압축해 memory 사용량을 최소 6배 줄일 수 있다는 Google Research 결과를 다시 끌어올렸다. 관건은 이 기법이 실제 local inference stack에 통합돼 long-context 성능과 운영 비용을 얼마나 바꿀 수 있느냐다.