Hacker News, Transformer depth 개선을 노린 Moonshot AI의 Attention Residuals 주목
Original: Attention Residuals View original →
2026년 3월 20일 Hacker News에서 Attention Residuals 글은 114 points를 기록했다. 대형 제품 출시만큼 큰 thread는 아니지만, 주제 자체는 Hacker News가 반복해서 반응하는 유형이다. 논문상으로는 점진적인 architectural change처럼 보이지만, 실제로는 large language model의 depth 활용 방식을 다시 생각하게 만들기 때문이다.
논문과 공식 repository는 PreNorm 구조의 익숙한 문제에서 출발한다. 표준 residual connection은 이전 layer output을 고정된 unit weight로 계속 더한다. model이 깊어질수록 hidden-state magnitude가 커지고, 각 layer의 기여도는 희석된다. Attention Residuals, 즉 AttnRes는 이 고정 누적을 이전 layer output들에 대한 softmax attention으로 바꿔, 현재 input에 맞춰 어떤 표현을 재사용할지 layer마다 선택하게 만든다.
커뮤니티가 주목한 이유
핵심은 단순히 attention을 더 붙이는 것이 아니다. 저자들은 Block AttnRes도 함께 제안한다. layer를 여러 block으로 나누고 모든 이전 layer 대신 block-level representation 위에서 attention을 수행해, memory burden을 O(Ld)에서 O(Nd)로 줄인다. 그래서 흥미로운 research idea에 머무르지 않고, 실제로 고려 가능한 drop-in replacement처럼 보이게 만든다.
- scaling law 실험에서는 compute budget과 model size 전반에 걸쳐 일관된 개선이 보고됐다.
- repository는 Block AttnRes가 1.25x 더 많은 compute로 학습한 baseline 수준의 loss를 맞출 수 있다고 설명한다.
- 48B total / 3B activated parameters의 Kimi Linear를 1.4T tokens로 pre-train한 설정에서 MMLU는 73.5에서 74.6, GPQA-Diamond는 36.9에서 44.4, HumanEval은 59.1에서 62.2로 개선됐다고 제시한다.
이런 점이 Hacker News 독자들에게 설득력을 준다. 막연한 “better reasoning”이 아니라, depth를 어떻게 집계할지에 대한 구체적 수정과 효율화 아이디어, 그리고 재현 가능하게 검증할 수 있는 benchmark delta가 함께 나오기 때문이다. AttnRes가 Moonshot AI의 stack 밖에서도 유지된다면, 향후 Transformer와 linear-attention model에서 residual design 논의를 다시 열 수 있다.
Related Articles
Kimi Team의 AttnRes 논문은 PreNorm residual이 모든 이전 layer 출력을 고정 가중치로 더하면서 깊은 stack에서 정보 희석을 만든다고 주장한다. 해결책으로 layer 간 selective aggregation과 메모리 비용을 줄인 Block AttnRes를 제시한다.
Google DeepMind는 2026년 3월 3일 Gemini 3.1 Flash-Lite를 업데이트하며 대량·저지연 워크로드용 모델로 제시했다. 회사는 128k input, 8k output, multimodal 입력, native audio generation, 그리고 $0.10/$0.40 수준의 저가 token pricing을 강조했다.
r/MachineLearning에서는 가중치 변경 없이 중간 7개 층 블록만 복제해 leaderboard 성능을 끌어올렸다는 실험 노트가 큰 관심을 받고 있다.
Comments (0)
No comments yet. Be the first to comment!