r/singularity, LM head가 학습 신호 대부분을 낭비한다고 보는 논문에 주목

r/singularity의 한 Reddit 스레드는 일반 AI 커뮤니티치고는 꽤 기술적인 논문을 끌어올렸다. arXiv:2603.10145, Lost in Backpropagation: The LM Head is a Gradient Bottleneck다. 이 논문은 neural language model의 output layer가 익숙한 softmax expressivity bottleneck에 그치지 않을 수 있다고 주장한다. 학습 신호의 큰 몫이 model의 나머지 부분에 도달하기도 전에 조용히 낭비되는 optimization bottleneck일 수 있다는 것이다.

핵심 설정은 단순하다. language model은 크기 D의 hidden feature를 vocabulary 크기 V의 logit으로 사상하는데, 보통 D는 V보다 훨씬 작다. 저자들은 gradient가 그 rank-D output layer를 거쳐 backpropagation될 때 피할 수 없는 compression이 생긴다고 본다. abstract에 따르면 output layer에서 gradient norm의 95~99%가 억제되며, 그 결과 update 방향이 가장 정보량이 큰 방향에서 멀어진다. 오래전부터 알려진 architectural quirk를 훨씬 더 심각한 optimization efficiency 문제로 격상시키는 주장이다.

논문은 theory에서 멈추지 않는다. abstract에 따르면 저자들은 controlled experiment를 통해 vocabulary 크기가 커질수록 이 bottleneck이 사소한 pattern조차 배우기 어렵게 만들 수 있음을 보였고, 2B-parameter 규모의 현실적인 pretraining run에서도 convergence가 의미 있게 느려진다고 보고했다. 결론은 현재 language model이 더 큰 architecture와 무관하게, 마지막 layer가 유용한 supervision signal을 너무 많이 버리기 때문에 실제보다 비효율적으로 학습되고 있을 수 있다는 것이다.

Reddit 이용자들이 주목한 것도 바로 이 함의였다. 최상위 댓글은 softmax bottleneck이 expressivity 문제가 아니라 backpropagation 도중 supervision signal 대부분을 잃게 만드는 문제라는 논문 결론을 직접 강조했다. 다른 댓글은 latent-space generation이나 비표준 output scheme 같은 대안을 곧바로 거론했다. 짧은 스레드였지만 반응은 인상적이었다. LM head를 단순한 수학적 각주가 아니라, 실제 system 효율을 깎아먹는 저평가된 bottleneck으로 보기 시작한 것이다.

이 결과가 유지된다면 의미는 paper discussion에 그치지 않는다. 오늘날 많은 LLM 진보는 여전히 data, compute, model size scaling에서 나온다. 하지만 이 논문은 또 다른 레버가 훨씬 가까운 곳에 숨어 있을 수 있다고 시사한다. hidden state를 vocabulary logit으로 투영하는 방식, 그리고 그 인터페이스를 통해 gradient가 되돌아가는 방식을 바꾸는 것이다. 출처: arXiv:2603.10145. 커뮤니티 토론: r/singularity.

r/singularity, LM head가 학습 신호 대부분을 낭비한다고 보는 논문에 주목

Related Articles

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상

논문과 경쟁 코드를 먼저 읽는 에이전트, Hacker News가 본 실전 성능 개선

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 꽂힌 자동 튜닝, Qwen3.5-27B가 40 tok/s까지 올랐다
LLM Reddit Apr 16, 2026 1 min read

VRAM에 자주 쓰는 expert만 올리자, LocalLLaMA가 본 27% 속도 향상
LLM Reddit Apr 16, 2026 1 min read

논문과 경쟁 코드를 먼저 읽는 에이전트, Hacker News가 본 실전 성능 개선
LLM Hacker News Apr 10, 2026 1 min read