#backpropagation - Insights

LLM Reddit Mar 13, 2026 1 min read

r/singularity, LM head가 학습 신호 대부분을 낭비한다고 보는 논문에 주목

한 Reddit 스레드는 arXiv 논문 2603.10145를 끌어올렸고, 이 논문은 language model의 output layer가 단순한 softmax expressivity 문제가 아니라 gradient norm의 95~99%를 억제하는 optimization bottleneck일 수 있다고 주장한다. 토론은 더 나은 head 설계가 LLM 학습 효율을 크게 바꿀 수 있는지에 집중됐다.

#backpropagation #lm-head #optimization