r/singularity, LM head가 학습 신호 대부분을 낭비한다고 보는 논문에 주목
Original: Lost in Backpropagation: The LM Head is a Gradient Bottleneck | Researchers may have found a fundamental inefficiency baked into every major LLM View original →
r/singularity의 한 Reddit 스레드는 일반 AI 커뮤니티치고는 꽤 기술적인 논문을 끌어올렸다. arXiv:2603.10145, Lost in Backpropagation: The LM Head is a Gradient Bottleneck다. 이 논문은 neural language model의 output layer가 익숙한 softmax expressivity bottleneck에 그치지 않을 수 있다고 주장한다. 학습 신호의 큰 몫이 model의 나머지 부분에 도달하기도 전에 조용히 낭비되는 optimization bottleneck일 수 있다는 것이다.
핵심 설정은 단순하다. language model은 크기 D의 hidden feature를 vocabulary 크기 V의 logit으로 사상하는데, 보통 D는 V보다 훨씬 작다. 저자들은 gradient가 그 rank-D output layer를 거쳐 backpropagation될 때 피할 수 없는 compression이 생긴다고 본다. abstract에 따르면 output layer에서 gradient norm의 95~99%가 억제되며, 그 결과 update 방향이 가장 정보량이 큰 방향에서 멀어진다. 오래전부터 알려진 architectural quirk를 훨씬 더 심각한 optimization efficiency 문제로 격상시키는 주장이다.
논문은 theory에서 멈추지 않는다. abstract에 따르면 저자들은 controlled experiment를 통해 vocabulary 크기가 커질수록 이 bottleneck이 사소한 pattern조차 배우기 어렵게 만들 수 있음을 보였고, 2B-parameter 규모의 현실적인 pretraining run에서도 convergence가 의미 있게 느려진다고 보고했다. 결론은 현재 language model이 더 큰 architecture와 무관하게, 마지막 layer가 유용한 supervision signal을 너무 많이 버리기 때문에 실제보다 비효율적으로 학습되고 있을 수 있다는 것이다.
Reddit 이용자들이 주목한 것도 바로 이 함의였다. 최상위 댓글은 softmax bottleneck이 expressivity 문제가 아니라 backpropagation 도중 supervision signal 대부분을 잃게 만드는 문제라는 논문 결론을 직접 강조했다. 다른 댓글은 latent-space generation이나 비표준 output scheme 같은 대안을 곧바로 거론했다. 짧은 스레드였지만 반응은 인상적이었다. LM head를 단순한 수학적 각주가 아니라, 실제 system 효율을 깎아먹는 저평가된 bottleneck으로 보기 시작한 것이다.
이 결과가 유지된다면 의미는 paper discussion에 그치지 않는다. 오늘날 많은 LLM 진보는 여전히 data, compute, model size scaling에서 나온다. 하지만 이 논문은 또 다른 레버가 훨씬 가까운 곳에 숨어 있을 수 있다고 시사한다. hidden state를 vocabulary logit으로 투영하는 방식, 그리고 그 인터페이스를 통해 gradient가 되돌아가는 방식을 바꾸는 것이다. 출처: arXiv:2603.10145. 커뮤니티 토론: r/singularity.
Related Articles
2026년 3월 9일 제출된 arXiv 논문 Ares는 multi-step LLM agent에서 단계별 reasoning effort를 동적으로 조절하는 방식을 제안했다. 저자들은 fixed high-effort 대비 reasoning token 사용량을 최대 52.7% 줄이면서 성공률 저하는 작았다고 보고했다.
OpenAI는 GPT-5.4 Thinking을 ChatGPT에, GPT-5.4를 API와 Codex에, GPT-5.4 Pro를 ChatGPT와 API에 배포하기 시작했다. reasoning, coding, native computer use를 최대 1M-token context와 함께 하나의 professional-work model로 묶었다는 점이 핵심이다.
r/LocalLLaMA의 실험 글은 Qwen 3.5 0.8B를 MacBook Air에서 test feedback loop와 LoRA로 돌려, 13개의 self-generated repair pair만으로 holdout slice를 16/50에서 28/50으로 끌어올렸다는 tinyforge 사례를 공유했다.
Comments (0)
No comments yet. Be the first to comment!