Hacker News, Transformer depth 개선을 노린 Moonshot AI의 Attention Residuals 주목

2026년 3월 20일 Hacker News에서 Attention Residuals 글은 114 points를 기록했다. 대형 제품 출시만큼 큰 thread는 아니지만, 주제 자체는 Hacker News가 반복해서 반응하는 유형이다. 논문상으로는 점진적인 architectural change처럼 보이지만, 실제로는 large language model의 depth 활용 방식을 다시 생각하게 만들기 때문이다.

논문과 공식 repository는 PreNorm 구조의 익숙한 문제에서 출발한다. 표준 residual connection은 이전 layer output을 고정된 unit weight로 계속 더한다. model이 깊어질수록 hidden-state magnitude가 커지고, 각 layer의 기여도는 희석된다. Attention Residuals, 즉 AttnRes는 이 고정 누적을 이전 layer output들에 대한 softmax attention으로 바꿔, 현재 input에 맞춰 어떤 표현을 재사용할지 layer마다 선택하게 만든다.

커뮤니티가 주목한 이유

핵심은 단순히 attention을 더 붙이는 것이 아니다. 저자들은 Block AttnRes도 함께 제안한다. layer를 여러 block으로 나누고 모든 이전 layer 대신 block-level representation 위에서 attention을 수행해, memory burden을 O(Ld)에서 O(Nd)로 줄인다. 그래서 흥미로운 research idea에 머무르지 않고, 실제로 고려 가능한 drop-in replacement처럼 보이게 만든다.

scaling law 실험에서는 compute budget과 model size 전반에 걸쳐 일관된 개선이 보고됐다.
repository는 Block AttnRes가 1.25x 더 많은 compute로 학습한 baseline 수준의 loss를 맞출 수 있다고 설명한다.
48B total / 3B activated parameters의 Kimi Linear를 1.4T tokens로 pre-train한 설정에서 MMLU는 73.5에서 74.6, GPQA-Diamond는 36.9에서 44.4, HumanEval은 59.1에서 62.2로 개선됐다고 제시한다.

이런 점이 Hacker News 독자들에게 설득력을 준다. 막연한 “better reasoning”이 아니라, depth를 어떻게 집계할지에 대한 구체적 수정과 효율화 아이디어, 그리고 재현 가능하게 검증할 수 있는 benchmark delta가 함께 나오기 때문이다. AttnRes가 Moonshot AI의 stack 밖에서도 유지된다면, 향후 Transformer와 linear-attention model에서 residual design 논의를 다시 열 수 있다.

출처: Hacker News thread, official repo, arXiv paper.

Hacker News, Transformer depth 개선을 노린 Moonshot AI의 Attention Residuals 주목

커뮤니티가 주목한 이유

Related Articles

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결

위임 작업에서 LLM이 문서를 오염시킨다는 연구 경고

필즈상 수학자 "GPT-5.5 Pro, 박사급 수학 증명 해냈다"

Comments (0)

Leave a Comment