r/singularity、LM head が学習信号の大半を失わせるとする論文に注目

Original: Lost in Backpropagation: The LM Head is a Gradient Bottleneck | Researchers may have found a fundamental inefficiency baked into every major LLM View original →

Read in other languages: 한국어English
LLM Mar 13, 2026 By Insights AI (Reddit) 1 min read Source

r/singularity のRedditスレッドでは、一般的なAIコミュニティとしてはかなり技術寄りの論文が取り上げられた。arXiv:2603.10145、Lost in Backpropagation: The LM Head is a Gradient Bottleneck だ。この論文は、neural language model の output layer が、よく知られた softmax expressivity bottleneck にとどまらない可能性を主張する。つまり、学習信号の大部分が model の本体へ届く前に静かに失われる optimization bottleneck かもしれないという話だ。

基本設定は単純だ。language model はサイズ D の hidden feature を vocabulary サイズ V の logit に写像するが、通常 D は V よりずっと小さい。著者らは、gradient がその rank-D の output layer を通って backpropagation されるとき、避けられない compression が起きると論じている。abstract では、gradient norm の 95〜99% が output layer で抑圧され、その結果もっとも情報量の高い update 方向から学習がずれてしまうとしている。長く知られていた architectural quirk を、はるかに深刻な optimization efficiency の問題に引き上げる主張だ。

論文は theory だけにとどまらない。abstract によれば、著者らは controlled experiment によって、vocabulary サイズが大きくなるほどこの bottleneck が単純な pattern でさえ学習しにくくすることを示し、さらに 2B-parameter 級の現実的な pretraining run でも convergence が明確に遅くなると報告している。結論として、現在の language model は、より大きな architecture とは独立に、最後の layer が有用な supervision signal を捨てすぎているため、本来より非効率に学習している可能性があるという。

Redditの読者が注目したのも、まさにその含意だった。トップコメントは、softmax bottleneck が expressivity の問題であるだけでなく、backpropagation 中に supervision signal の大半を失わせるという論文の結論を強調した。別のコメントでは、latent-space generation や非標準の output scheme のような代替案がすぐに挙げられていた。短いスレッドながら反応は印象的で、LM head を単なる数学的な注記ではなく、system 効率を削る見過ごされた bottleneck として見る空気があった。

この結果が持ちこたえるなら、意味は paper の議論だけに留まらない。現在のLLM進歩の多くは、いまだに data、compute、model size の scaling に依存している。しかしこの論文は、もう一つの改善レバーがもっと手前にあるかもしれないと示唆する。hidden state を vocabulary logit に投影する方法と、そのインターフェースを通る gradient の戻り方を変えることだ。出典: arXiv:2603.10145. コミュニティ議論: r/singularity.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.