Skip to content

#arxiv

RSS Feed
LLM Reddit Mar 13, 2026 1 min read

Redditのスレッドで arXiv 論文 2603.10145 が共有され、この論文は language model の output layer が単なる softmax expressivity の問題ではなく、gradient norm の 95〜99% を抑圧する optimization bottleneck だと主張している。議論は、より良い head 設計が LLM 学習効率を大きく変え得るかに集中した。