r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

小さいが具体的なgrokking実験がRedditに上がった

2026年3月17日、r/MachineLearningのスレッドでClip to Grokはクロール時点で56ポイントと20件のコメントを集めた。投稿者が提案する介入は驚くほど単純だ。optimizer stepのたびにdecoder layerの各weight rowをL2 normの境界へ戻すようにclippingする。READMEではこれをper-row weight norm clippingと呼び、weight decay、gradient filtering、optimizerごとの再調整なしにgrokking delayを減らす方法として位置付けている。

注目を集めたのは結果の数字だ。repositoryのmodular arithmetic benchmarkでは、2-layer 422k-parameter modelでLion+Clipが550 median steps、AdamW baselineが35,040 stepsとされ、66xの短縮になる。8-layer 1.6M-parameter modelでも1,570 steps対28,905 stepsで、およそ18x速いと報告している。さらにedge initializationを使った300回の実験でfailureがなかったとも書かれている。READMEは、embeddingとoutput headはclipping対象から外し、decoder weightsとfinal LayerNormを各optimizer updateの直後に制約すると説明している。

なぜこの投稿が面白いのか

このスレッドが気になる理由は、介入の単純さに対して効果が大きすぎることだ。machine learningにはgeneralization改善をうたう手法が多いが、複雑なscheduleや壊れやすいhyperparameter tuningを伴うことも多い。ここでの主張は逆で、短いpost-step projection、固定のmax_norm=2.0、比較的広いoptimizer toleranceだけでgrokking系のtraining dynamicsが大きく変わったという。もしこれが広い条件に一般化するなら、遅く不安定だと見られてきた現象をずっと調べやすくする。

ただし注意点は投稿者自身が明示している。現時点の結果はすべてmodular arithmetic上のもので、frontier language-model pretrainingではなく、277M LLMの試験もまだ進行中だという。したがって誠実な読み方は、「grokkingが普遍的に解決された」ではない。むしろ、安価な介入が狭いbenchmarkで異様に大きい利得を示し、いまやコミュニティがsocial mediaの画像ではなくcodeとPDFをもとにその主張を検証できるようになった、という点にある。

r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

小さいが具体的なgrokking実験がRedditに上がった

なぜこの投稿が面白いのか

Related Articles

シエラレオネのGemini教室実験、問題への取り組み方の質問が68%から90%へ

Hacker Newsで注目のagent-sat、MaxSAT解法を自律的に改良するAIシステム

Codex役割別プラグイン、62アプリと110スキルで業務エージェント範囲を本格拡大する新しい展開へ

Related Articles

シエラレオネのGemini教室実験、問題への取り組み方の質問が68%から90%へ
Google DeepMindのシエラレオネ実験では、問題への取り組み方を尋ねるGeminiクエリが68%から90%へ増えた。8週間、12校、1,763人を対象にしたRCTで、教育AIの評価軸が行動変化へ移っている。

Hacker Newsで注目のagent-sat、MaxSAT解法を自律的に改良するAIシステム
AI Hacker News Mar 19, 2026 1 min read

Codex役割別プラグイン、62アプリと110スキルで業務エージェント範囲を本格拡大する新しい展開へ
AI X/Twitter Jun 4, 2026 1 min read