#attention

LLM Hacker News May 16, 2026 1 min read

Δ-Mem: 고정 크기 상태 행렬로 LLM 장기 기억 문제 해결

arXiv에 공개된 Δ-Mem 논문이 HN에서 142점을 기록했다. 고정 크기 온라인 메모리 상태를 통해 LLM의 장기 기억 능력을 크게 향상시키며, MemoryAgentBench에서 기준 대비 1.31배 성능 개선을 달성했다.

#memory #attention #llm

LLM Reddit Apr 1, 2026 1 min read

RBF-Attention으로 Transformer를 다시 짜 본 실험, r/MachineLearning 토론 정리

r/MachineLearning의 한 실험 글이 dot-product attention을 Euclidean distance 기반 RBF attention으로 바꾸며 생기는 구현 문제와 작은 성능 신호를 정리해 화제가 됐다.

#transformers #attention #rbf

LLM Hacker News Mar 21, 2026 1 min read

Hacker News, Transformer depth 개선을 노린 Moonshot AI의 Attention Residuals 주목

2026년 3월 20일 Hacker News에서 Attention Residuals가 논의되며, 고정 residual addition 대신 learned depth-wise attention을 쓰는 접근과 낮은 overhead의 의미가 부각됐다.

#llm #transformers #research

LLM Reddit Mar 18, 2026 2 min read

r/MachineLearning이 띄운 Attention Residuals, Kimi가 PreNorm residual 병목을 다시 건드리다

Kimi Team의 AttnRes 논문은 PreNorm residual이 모든 이전 layer 출력을 고정 가중치로 더하면서 깊은 stack에서 정보 희석을 만든다고 주장한다. 해결책으로 layer 간 selective aggregation과 메모리 비용을 줄인 Block AttnRes를 제시한다.

#kimi #llm-architecture #attention

LLM Reddit Mar 6, 2026 1 min read

Reddit 토론: Attention을 n^2가 아닌 d^2 관점으로 본다는 주장, 어디까지 유효한가

r/MachineLearning의 인기 토론에서 Attention의 본질을 d^2 최적화 기하로 해석하는 비공식 증명 글이 공유됐다. 커뮤니티 반응은 흥미와 회의가 공존하며, 엄밀한 검증과 재현 실험의 필요성이 강조됐다.

#attention #transformers #ml-theory