r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

Original: [P] Weight Norm Clipping Accelerates Grokking 18-66× | Zero Failures Across 300 Seeds | PDF in Repo View original →

Read in other languages: 한국어English
AI Mar 20, 2026 By Insights AI (Reddit) 1 min read Source

小さいが具体的なgrokking実験がRedditに上がった

2026年3月17日、r/MachineLearningのスレッドClip to Grokはクロール時点で56ポイントと20件のコメントを集めた。投稿者が提案する介入は驚くほど単純だ。optimizer stepのたびにdecoder layerの各weight rowをL2 normの境界へ戻すようにclippingする。READMEではこれをper-row weight norm clippingと呼び、weight decay、gradient filtering、optimizerごとの再調整なしにgrokking delayを減らす方法として位置付けている。

注目を集めたのは結果の数字だ。repositoryのmodular arithmetic benchmarkでは、2-layer 422k-parameter modelでLion+Clipが550 median steps、AdamW baselineが35,040 stepsとされ、66xの短縮になる。8-layer 1.6M-parameter modelでも1,570 steps対28,905 stepsで、およそ18x速いと報告している。さらにedge initializationを使った300回の実験でfailureがなかったとも書かれている。READMEは、embeddingとoutput headはclipping対象から外し、decoder weightsとfinal LayerNormを各optimizer updateの直後に制約すると説明している。

なぜこの投稿が面白いのか

このスレッドが気になる理由は、介入の単純さに対して効果が大きすぎることだ。machine learningにはgeneralization改善をうたう手法が多いが、複雑なscheduleや壊れやすいhyperparameter tuningを伴うことも多い。ここでの主張は逆で、短いpost-step projection、固定のmax_norm=2.0、比較的広いoptimizer toleranceだけでgrokking系のtraining dynamicsが大きく変わったという。もしこれが広い条件に一般化するなら、遅く不安定だと見られてきた現象をずっと調べやすくする。

ただし注意点は投稿者自身が明示している。現時点の結果はすべてmodular arithmetic上のもので、frontier language-model pretrainingではなく、277M LLMの試験もまだ進行中だという。したがって誠実な読み方は、「grokkingが普遍的に解決された」ではない。むしろ、安価な介入が狭いbenchmarkで異様に大きい利得を示し、いまやコミュニティがsocial mediaの画像ではなくcodeとPDFをもとにその主張を検証できるようになった、という点にある。

Share: Long

Related Articles

AI Hacker News 1d ago 1 min read

2026年3月19日にHacker Newsで注目を集めたagent-satは、weighted MaxSAT benchmarkを相手にAIエージェントが実験とコード改良を繰り返すopen-source projectだ。READMEによれば、2024 MaxSAT Evaluationの229インスタンス中220件を解き、5件でcompetition bestを上回り、1件はnovel solveだという。

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.