#grokking - Insights

AI Reddit Mar 20, 2026 1 min read

r/MachineLearning, Clip to Grok 실험 주목... 단순한 weight norm clipping으로 grokking 지연 단축 주장

2026년 3월 17일 r/MachineLearning에 올라온 Clip to Grok 글은 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들은 optimizer step마다 decoder weight row를 L2 clipping하는 방식으로 modular arithmetic benchmark에서 18배에서 66배 빠른 generalization을 얻었다고 주장한다.

#grokking #optimization #transformers