Reddit 토론: Attention을 n^2가 아닌 d^2 관점으로 본다는 주장, 어디까지 유효한가
Original: [D] A mathematical proof from an anonymous Korean forum: The essence of Attention is fundamentally a d^2 problem, not n^2. (PDF included) View original →
포스트 개요
r/MachineLearning에서 높은 반응을 얻은 토론(원문)은 Attention 계산을 바라보는 프레임을 다시 제기한다. 작성자는 한국 커뮤니티의 익명 문서를 소개하며, Attention의 최적화 지형이 본질적으로 d^2 차원이라는 주장과 함께 PDF 링크를 공유했다.
원 게시물의 핵심 주장에는 세 가지가 있다. 첫째, forward/backward를 함께 보면 실제 탐색되는 최적화 공간은 n^2가 아니라 d^2라는 해석. 둘째, softmax가 matching을 제공하지만 계산/랭크 측면의 비용 구조를 키운다는 문제 제기. 셋째, 이를 바탕으로 polynomial 계열 attention으로의 대체 가능성을 탐색할 수 있다는 제안이다.
커뮤니티 반응: 관심과 검증 요구가 동시에 존재
댓글 흐름은 양분됐다. 일부는 수학적 프레이밍 자체는 흥미롭고 정리 가치가 있다고 평가했다. 반면 상위 댓글 다수는 동일한 최적화 차원이라는 사실만으로 커널 대체의 기능적 동등성을 보장할 수 없다고 지적했다. 또 O(nd^3)와 O(n^2d)를 비교할 때 실제 모델의 d 크기, 시퀀스 길이 범위, 하드웨어 특성을 함께 봐야 한다는 실무적 반론도 제시됐다.
즉, 토론의 공통 결론은 "아이디어는 흥미롭지만 peer review와 재현 실험이 필요하다"에 가깝다. 특히 익명 출처, 비공식 유통 경로, 번역 게시라는 맥락 때문에 검증 기준을 더 높여야 한다는 의견이 강했다.
실무자가 읽을 때의 체크리스트
- 주장이 겨냥하는 대상이 이론적 차원 분석인지, 실제 wall-clock 성능인지 구분
- 장난감 실험이 아닌 공개 벤치마크/코드 재현 여부 확인
- 기존 linear/hybrid attention 연구와의 관계 정리
- 복잡도 표기와 상수항, 메모리 접근 패턴을 함께 비교
이번 Reddit 토론은 "새 이론의 발견"이라기보다, Attention 병목을 어떤 좌표계로 설명할 것인지에 대한 공개 검증의 출발점으로 보는 편이 타당하다.
Related Articles
r/MachineLearning의 한 실험 글이 dot-product attention을 Euclidean distance 기반 RBF attention으로 바꾸며 생기는 구현 문제와 작은 성능 신호를 정리해 화제가 됐다.
2026년 3월 20일 Hacker News에서 Attention Residuals가 논의되며, 고정 residual addition 대신 learned depth-wise attention을 쓰는 접근과 낮은 overhead의 의미가 부각됐다.
arXiv에 공개된 Δ-Mem 논문이 HN에서 142점을 기록했다. 고정 크기 온라인 메모리 상태를 통해 LLM의 장기 기억 능력을 크게 향상시키며, MemoryAgentBench에서 기준 대비 1.31배 성능 개선을 달성했다.