Skip to content

#backpropagation

RSS Feed
LLM Reddit Mar 13, 2026 1 min read

한 Reddit 스레드는 arXiv 논문 2603.10145를 끌어올렸고, 이 논문은 language model의 output layer가 단순한 softmax expressivity 문제가 아니라 gradient norm의 95~99%를 억제하는 optimization bottleneck일 수 있다고 주장한다. 토론은 더 나은 head 설계가 LLM 학습 효율을 크게 바꿀 수 있는지에 집중됐다.