#llm-architecture

LLM Hacker News Apr 2, 2026 1 min read

Hacker News가 다시 짚은 long-context LLM의 KV cache 비용

Hacker News는 KV cache를 추상적 architecture 용어가 아니라 GPU memory 비용 문제로 설명한 Future Shock 글을 다시 끌어올렸다. 이 설명은 GPT-2에서 Llama 3, DeepSeek V3, Gemma 3, Mamba 계열까지 memory 설계가 어떻게 달라졌는지 한 흐름으로 보여 준다.

#kv-cache #inference #transformers

LLM Reddit Mar 18, 2026 2 min read

r/MachineLearning이 띄운 Attention Residuals, Kimi가 PreNorm residual 병목을 다시 건드리다

Kimi Team의 AttnRes 논문은 PreNorm residual이 모든 이전 layer 출력을 고정 가중치로 더하면서 깊은 stack에서 정보 희석을 만든다고 주장한다. 해결책으로 layer 간 selective aggregation과 메모리 비용을 줄인 Block AttnRes를 제시한다.

#kimi #llm-architecture #attention