r/singularity, LM head가 학습 신호 대부분을 낭비한다고 보는 논문에 주목
Original: Lost in Backpropagation: The LM Head is a Gradient Bottleneck | Researchers may have found a fundamental inefficiency baked into every major LLM View original →
r/singularity의 한 Reddit 스레드는 일반 AI 커뮤니티치고는 꽤 기술적인 논문을 끌어올렸다. arXiv:2603.10145, Lost in Backpropagation: The LM Head is a Gradient Bottleneck다. 이 논문은 neural language model의 output layer가 익숙한 softmax expressivity bottleneck에 그치지 않을 수 있다고 주장한다. 학습 신호의 큰 몫이 model의 나머지 부분에 도달하기도 전에 조용히 낭비되는 optimization bottleneck일 수 있다는 것이다.
핵심 설정은 단순하다. language model은 크기 D의 hidden feature를 vocabulary 크기 V의 logit으로 사상하는데, 보통 D는 V보다 훨씬 작다. 저자들은 gradient가 그 rank-D output layer를 거쳐 backpropagation될 때 피할 수 없는 compression이 생긴다고 본다. abstract에 따르면 output layer에서 gradient norm의 95~99%가 억제되며, 그 결과 update 방향이 가장 정보량이 큰 방향에서 멀어진다. 오래전부터 알려진 architectural quirk를 훨씬 더 심각한 optimization efficiency 문제로 격상시키는 주장이다.
논문은 theory에서 멈추지 않는다. abstract에 따르면 저자들은 controlled experiment를 통해 vocabulary 크기가 커질수록 이 bottleneck이 사소한 pattern조차 배우기 어렵게 만들 수 있음을 보였고, 2B-parameter 규모의 현실적인 pretraining run에서도 convergence가 의미 있게 느려진다고 보고했다. 결론은 현재 language model이 더 큰 architecture와 무관하게, 마지막 layer가 유용한 supervision signal을 너무 많이 버리기 때문에 실제보다 비효율적으로 학습되고 있을 수 있다는 것이다.
Reddit 이용자들이 주목한 것도 바로 이 함의였다. 최상위 댓글은 softmax bottleneck이 expressivity 문제가 아니라 backpropagation 도중 supervision signal 대부분을 잃게 만드는 문제라는 논문 결론을 직접 강조했다. 다른 댓글은 latent-space generation이나 비표준 output scheme 같은 대안을 곧바로 거론했다. 짧은 스레드였지만 반응은 인상적이었다. LM head를 단순한 수학적 각주가 아니라, 실제 system 효율을 깎아먹는 저평가된 bottleneck으로 보기 시작한 것이다.
이 결과가 유지된다면 의미는 paper discussion에 그치지 않는다. 오늘날 많은 LLM 진보는 여전히 data, compute, model size scaling에서 나온다. 하지만 이 논문은 또 다른 레버가 훨씬 가까운 곳에 숨어 있을 수 있다고 시사한다. hidden state를 vocabulary logit으로 투영하는 방식, 그리고 그 인터페이스를 통해 gradient가 되돌아가는 방식을 바꾸는 것이다. 출처: arXiv:2603.10145. 커뮤니티 토론: r/singularity.
Related Articles
AI agent 인프라 경쟁이 토큰 처리량이 아니라 동시 작업 수와 전력 효율로 옮겨가고 있다. NVIDIA는 Artificial Analysis의 새 AA-AgentPerf에서 GB300 NVL72가 H200보다 MW당 동시 coding agent 처리량을 최대 20배 높였다고 밝혔다.
코딩 모델 평가가 정답률에서 코드 리뷰 품질로 옮겨가고 있다는 점에 HN 관심이 모였다. FrontierCode는 PR을 실제 maintainer가 받아들일지에 초점을 둔다.
일반 사용자에게 풀린 것은 Fable 5지만, 핵심은 같은 기반 모델의 Mythos급 성능을 어디까지 열고 어디서 막을지다. Anthropic은 $10/$50 토큰 가격, 30일 보안 로그 보존, 일부 고위험 질의의 Opus 4.8 전환까지 함께 내놨다.