LLM Hacker News Apr 2, 2026 1 min read
Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。
Hacker Newsでは、KV cacheを抽象的なarchitecture用語ではなくGPU memoryコストとして説明するFuture Shockの記事が再び共有されている。GPT-2からLlama 3、DeepSeek V3、Gemma 3、Mamba系まで、memory設計の変化を一つの流れとして見せる内容だ。
Kimi TeamのAttnRes論文は、PreNorm residualが過去のlayer出力を固定重みで足し続けることで、深いstackで情報を薄めると主張する。解決策として、layer間のselective aggregationとコストを抑えるBlock AttnResが提示されている。