r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

小さいが具体的なgrokking実験がRedditに上がった

2026年3月17日、r/MachineLearningのスレッドでClip to Grokはクロール時点で56ポイントと20件のコメントを集めた。投稿者が提案する介入は驚くほど単純だ。optimizer stepのたびにdecoder layerの各weight rowをL2 normの境界へ戻すようにclippingする。READMEではこれをper-row weight norm clippingと呼び、weight decay、gradient filtering、optimizerごとの再調整なしにgrokking delayを減らす方法として位置付けている。

注目を集めたのは結果の数字だ。repositoryのmodular arithmetic benchmarkでは、2-layer 422k-parameter modelでLion+Clipが550 median steps、AdamW baselineが35,040 stepsとされ、66xの短縮になる。8-layer 1.6M-parameter modelでも1,570 steps対28,905 stepsで、およそ18x速いと報告している。さらにedge initializationを使った300回の実験でfailureがなかったとも書かれている。READMEは、embeddingとoutput headはclipping対象から外し、decoder weightsとfinal LayerNormを各optimizer updateの直後に制約すると説明している。

なぜこの投稿が面白いのか

このスレッドが気になる理由は、介入の単純さに対して効果が大きすぎることだ。machine learningにはgeneralization改善をうたう手法が多いが、複雑なscheduleや壊れやすいhyperparameter tuningを伴うことも多い。ここでの主張は逆で、短いpost-step projection、固定のmax_norm=2.0、比較的広いoptimizer toleranceだけでgrokking系のtraining dynamicsが大きく変わったという。もしこれが広い条件に一般化するなら、遅く不安定だと見られてきた現象をずっと調べやすくする。

ただし注意点は投稿者自身が明示している。現時点の結果はすべてmodular arithmetic上のもので、frontier language-model pretrainingではなく、277M LLMの試験もまだ進行中だという。したがって誠実な読み方は、「grokkingが普遍的に解決された」ではない。むしろ、安価な介入が狭いbenchmarkで異様に大きい利得を示し、いまやコミュニティがsocial mediaの画像ではなくcodeとPDFをもとにその主張を検証できるようになった、という点にある。

r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

小さいが具体的なgrokking実験がRedditに上がった

なぜこの投稿が面白いのか

Related Articles

Hacker Newsで注目のagent-sat、MaxSAT解法を自律的に改良するAIシステム

『Shadow API』がLLM研究の再現性を壊しているという警告

Hacker NewsがNanoGPT Slowrunのデータ効率10倍主張を追跡、固定データ時代の新実験

Comments (0)

Leave a Comment

Related Articles

Hacker Newsで注目のagent-sat、MaxSAT解法を自律的に改良するAIシステム

『Shadow API』がLLM研究の再現性を壊しているという警告
AI Reddit Mar 13, 2026 1 min read

Hacker NewsがNanoGPT Slowrunのデータ効率10倍主張を追跡、固定データ時代の新実験