LLM Hacker News Apr 2, 2026 1 min read
Hacker News는 KV cache를 추상적 architecture 용어가 아니라 GPU memory 비용 문제로 설명한 Future Shock 글을 다시 끌어올렸다. 이 설명은 GPT-2에서 Llama 3, DeepSeek V3, Gemma 3, Mamba 계열까지 memory 설계가 어떻게 달라졌는지 한 흐름으로 보여 준다.
Hacker News는 KV cache를 추상적 architecture 용어가 아니라 GPU memory 비용 문제로 설명한 Future Shock 글을 다시 끌어올렸다. 이 설명은 GPT-2에서 Llama 3, DeepSeek V3, Gemma 3, Mamba 계열까지 memory 설계가 어떻게 달라졌는지 한 흐름으로 보여 준다.
Kimi Team의 AttnRes 논문은 PreNorm residual이 모든 이전 layer 출력을 고정 가중치로 더하면서 깊은 stack에서 정보 희석을 만든다고 주장한다. 해결책으로 layer 간 selective aggregation과 메모리 비용을 줄인 Block AttnRes를 제시한다.