r/MachineLearning이 띄운 Attention Residuals, Kimi가 PreNorm residual 병목을 다시 건드리다

r/MachineLearning의 한 글이 Kimi Team의 Attention Residuals 논문을 다시 끌어올렸다. 반응 규모는 67 upvotes와 10 comments로 아주 거대한 수준은 아니지만, 주제가 충분히 기술적이기 때문에 연구 커뮤니티 안에서는 눈에 띄는 신호다. 핵심 질문은 의외로 단순하다. 현대 LLM의 약점이 attention 모듈 그 자체가 아니라, residual path가 이전 layer 출력을 너무 무차별적으로 누적하는 방식에 있는 것 아니냐는 것이다. 링크된 arXiv 논문 2603.15031은 standard PreNorm residual connection이 모든 이전 출력을 고정된 unit weight로 합산하기 때문에, depth가 깊어질수록 hidden state가 커지고 각 layer의 기여가 희석될 수 있다고 주장한다.

residual path를 다시 설계하는 방식

논문이 제안하는 해법은 Attention Residuals (AttnRes)다. 이전 layer 출력을 동일하게 더하는 대신, 현재 layer가 preceding state들에 softmax attention을 적용해 input-dependent weight로 selective aggregation을 수행하게 한다. 다시 말해 model이 모든 과거 representation을 똑같이 상속받는 것이 아니라, 현재 입력에 더 중요한 layer를 골라 강조할 수 있게 하는 것이다. 저자들은 이것이 deep PreNorm stack에서 나타나는 fixed-sum 성격을 완화하는 방법이라고 본다.

물론 시스템 관점의 반론도 바로 따라온다. 모든 이전 layer에 attention을 거는 방식은 비싸다. 그래서 논문은 Block AttnRes를 함께 제안한다. block-level representation을 사용해 memory와 communication overhead를 줄이면서도 full AttnRes의 장점을 상당 부분 유지하겠다는 방식이다. 이런 점이 중요한 이유는 architecture 아이디어가 paper 위에서는 아름다워 보여도, training cost 앞에서 무너지기 쉽기 때문이다. 이 논문은 구현 비용 문제를 부차적 이슈로 미루지 않는다.

왜 Reddit thread가 의미 있었나

글에 따르면 이 방식은 Kimi Linear에도 통합됐고, 48B total / 3B activated parameter 규모에서 1.4T tokens pre-training을 수행했다. 논문은 downstream performance 개선, depth 전반에서 더 균일한 output magnitude, 더 고른 gradient distribution을 주장한다. 댓글에서도 한 사용자는 아이디어가 직관적이라며 왜 더 일찍 적극적으로 시도되지 않았는지가 오히려 놀랍다고 말했다. 다른 사용자는 보다 고전적인 질문을 던졌다. 이 개선이 residual redesign 자체에서 오는 것인지, 아니면 결국 parameter나 compute 조건이 달라졌기 때문인지 구분해야 한다는 지적이다.

바로 이 지점 때문에 이 thread는 단순한 “새 transformer tweak” 이상으로 읽힌다. context length를 늘리거나 post-training recipe를 손보는 것만이 다음 개선 경로가 아니라, 이미 너무 익숙해서 배경처럼 취급되던 transformer plumbing 자체가 다시 연구 대상이 되고 있다는 뜻이기 때문이다. AttnRes는 residual connection을 다시 전면에 끌어올렸고, r/MachineLearning이 이를 흥미롭게 본 이유도 여기에 있다.

r/MachineLearning이 띄운 Attention Residuals, Kimi가 PreNorm residual 병목을 다시 건드리다

residual path를 다시 설계하는 방식

왜 Reddit thread가 의미 있었나

Related Articles

2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

r/MachineLearning, 완전히 AI로 작성된 듯한 ICML 제출물에 반발

r/LocalLLaMA가 주목한 tinyforge, 0.8B 모델의 로컬 self-improvement

Comments (0)

Leave a Comment

Related Articles

2장의 RTX 4090으로 Open LLM Leaderboard 상위를 만든 7-layer duplication 실험

r/MachineLearning, 완전히 AI로 작성된 듯한 ICML 제출물에 반발

r/LocalLLaMA가 주목한 tinyforge, 0.8B 모델의 로컬 self-improvement