Hacker News가 다시 짚은 long-context LLM의 KV cache 비용

2026년 3월 28일 전후 Hacker News에서 다시 주목받은 이 글은 KV cache를 내부자 용어가 아니라 실제 하드웨어 제약으로 번역해 준다는 점에서 가치가 있다. 핵심은 단순하다. 대화 중 생성된 각 token은 key-value tensor를 남기고, 그것이 실제 GPU memory를 차지한다. 따라서 long context는 단순한 모델 기능이 아니라, 운영비와 수용량을 결정하는 물리적 비용이다.

글은 주요 architecture가 이 비용을 어떻게 줄여 왔는지 일관된 흐름으로 정리한다. 인용된 Sebastian Raschka 비교에 따르면 GPT-2는 token당 약 300 KiB를 쓴다. Llama 3는 grouped-query attention으로 이를 약 128 KiB까지 내린다. DeepSeek V3는 multi-head latent attention으로 token당 약 68.6 KiB까지 더 줄였고, Gemma 3는 sliding-window layer를 섞어 모든 token을 영구히 같은 해상도로 기억하지 않는다. 여기에 Mamba 같은 state space model은 아예 cache를 키우지 않고 고정 크기 상태를 업데이트하는 더 급진적인 접근으로 제시된다.

중요한 이득은 단순한 memory 절감이 아니라 active conversation당 비용 절감이다.
cache 설계는 long-context 모델이 commodity GPU에 올라갈지, 비싼 인프라에만 머무를지를 가른다.
완전한 기억에서 공유, 압축, 필터링으로 이동하는 흐름이 이제는 핵심 architecture 선택이 됐다.

이 관점이 Hacker News에서 먹힌 이유도 분명하다. 개발자들은 context window를 말할 때 종종 benchmark 품질이나 10만 token 뒤 첫 문장을 기억하느냐만 본다. 하지만 실제 서비스에서는 memory footprint, throughput, 동시 세션 수용량이 같은 비중으로 중요하다. 더 가벼운 cache는 hosting margin을 바꾸고, 같은 GPU에서 더 많은 session을 돌리게 하며, edge나 on-device 배치 가능성도 바꾼다.

이 글은 새로운 논문 자체를 발표하는 것이 아니라, 여러 설계를 한 축 위에 놓아 trade-off를 보이게 한다는 데 의미가 있다. GPT-2, Llama 3, DeepSeek, Gemma, Mamba를 같은 연장선에 두면, 앞으로의 LLM 경쟁이 단지 더 큰 weight가 아니라 얼마나 효율적으로 기억하느냐의 경쟁이 된다는 점이 선명해진다. 그래서 Hacker News 독자들에게도 이 글이 단순한 개론이 아니라 운영 현실을 건드리는 설명으로 읽힌다.

출처: Future Shock · Hacker News 토론

Hacker News가 다시 짚은 long-context LLM의 KV cache 비용

Related Articles

TurboQuant, KV cache 압축을 시스템 레벨 이슈로 끌어올리다

Reddit가 주목한 llama.cpp의 attn-rot, KV cache quantization 품질을 싸게 끌어올릴까

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목

Comments (0)

Leave a Comment

Related Articles

TurboQuant, KV cache 압축을 시스템 레벨 이슈로 끌어올리다
LLM Hacker News Mar 26, 2026 1 min read

Reddit가 주목한 llama.cpp의 attn-rot, KV cache quantization 품질을 싸게 끌어올릴까

Hacker News, transformer 내부에서 program execution을 수행한다는 Percepta 주장에 주목
LLM Hacker News Mar 13, 2026 2 min read