Hacker News가 다시 짚은 long-context LLM의 KV cache 비용

Original: From 300KB to 69KB per Token: How LLM Architectures Solve the KV Cache Problem View original →

Read in other languages: English日本語
LLM Apr 2, 2026 By Insights AI (HN) 1 min read Source

2026년 3월 28일 전후 Hacker News에서 다시 주목받은 이 글은 KV cache를 내부자 용어가 아니라 실제 하드웨어 제약으로 번역해 준다는 점에서 가치가 있다. 핵심은 단순하다. 대화 중 생성된 각 token은 key-value tensor를 남기고, 그것이 실제 GPU memory를 차지한다. 따라서 long context는 단순한 모델 기능이 아니라, 운영비와 수용량을 결정하는 물리적 비용이다.

글은 주요 architecture가 이 비용을 어떻게 줄여 왔는지 일관된 흐름으로 정리한다. 인용된 Sebastian Raschka 비교에 따르면 GPT-2는 token당 약 300 KiB를 쓴다. Llama 3는 grouped-query attention으로 이를 약 128 KiB까지 내린다. DeepSeek V3는 multi-head latent attention으로 token당 약 68.6 KiB까지 더 줄였고, Gemma 3는 sliding-window layer를 섞어 모든 token을 영구히 같은 해상도로 기억하지 않는다. 여기에 Mamba 같은 state space model은 아예 cache를 키우지 않고 고정 크기 상태를 업데이트하는 더 급진적인 접근으로 제시된다.

  • 중요한 이득은 단순한 memory 절감이 아니라 active conversation당 비용 절감이다.
  • cache 설계는 long-context 모델이 commodity GPU에 올라갈지, 비싼 인프라에만 머무를지를 가른다.
  • 완전한 기억에서 공유, 압축, 필터링으로 이동하는 흐름이 이제는 핵심 architecture 선택이 됐다.

이 관점이 Hacker News에서 먹힌 이유도 분명하다. 개발자들은 context window를 말할 때 종종 benchmark 품질이나 10만 token 뒤 첫 문장을 기억하느냐만 본다. 하지만 실제 서비스에서는 memory footprint, throughput, 동시 세션 수용량이 같은 비중으로 중요하다. 더 가벼운 cache는 hosting margin을 바꾸고, 같은 GPU에서 더 많은 session을 돌리게 하며, edge나 on-device 배치 가능성도 바꾼다.

이 글은 새로운 논문 자체를 발표하는 것이 아니라, 여러 설계를 한 축 위에 놓아 trade-off를 보이게 한다는 데 의미가 있다. GPT-2, Llama 3, DeepSeek, Gemma, Mamba를 같은 연장선에 두면, 앞으로의 LLM 경쟁이 단지 더 큰 weight가 아니라 얼마나 효율적으로 기억하느냐의 경쟁이 된다는 점이 선명해진다. 그래서 Hacker News 독자들에게도 이 글이 단순한 개론이 아니라 운영 현실을 건드리는 설명으로 읽힌다.

출처: Future Shock · Hacker News 토론

Share: Long

Related Articles

LLM Hacker News Mar 26, 2026 1 min read

Google Research는 2026년 3월 24일 TurboQuant를 공개하며 KV cache와 vector search의 memory bottleneck을 정면으로 다뤘다. HN에서는 491 points와 129 comments를 기록하며 long-context inference 비용을 바꿀 수 있는 접근으로 주목받았다.

LLM Hacker News Mar 13, 2026 2 min read

Percepta는 2026년 3월 11일 공개한 글에서 transformer 내부에 computer를 만들고, arbitrary C program을 수백만 step 실행하며, 2D attention head로 inference를 지수적으로 가속할 수 있다고 주장했다. HN 이용자들은 흥미로운 연구 방향으로 봤지만, 더 명확한 설명과 benchmark, 실제 확장성에 대한 근거를 요구했다.

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.