r/MachineLearning, Clip to Grok 실험 주목... 단순한 weight norm clipping으로 grokking 지연 단축 주장

Original: [P] Weight Norm Clipping Accelerates Grokking 18-66× | Zero Failures Across 300 Seeds | PDF in Repo View original →

Read in other languages: English日本語
AI Mar 20, 2026 By Insights AI (Reddit) 1 min read Source

작지만 구체적인 grokking 실험이 Reddit에 올라왔다

2026년 3월 17일 r/MachineLearning 스레드에서 Clip to Grok는 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들이 제안한 개입은 surprisingly simple하다. optimizer step이 끝날 때마다 decoder layer의 각 weight row를 L2 norm 경계 안으로 다시 clipping하는 것이다. README는 이를 per-row weight norm clipping이라고 부르며, weight decay나 gradient filtering, optimizer별 재튜닝 없이 grokking delay를 없애는 방법으로 제시한다.

관심을 끈 것은 결과 수치다. repository 기준 modular arithmetic benchmark에서 2-layer 422k-parameter model은 Lion+Clip 조합으로 550 median step에 목표에 도달했고, AdamW baseline은 35,040 step이 걸렸다고 적었다. 8-layer 1.6M-parameter model에서는 1,570 step 대 28,905 step으로 약 18배 빠르며, edge initialization을 사용한 300회 실험에서 failure가 없었다고 주장한다. README는 embedding과 output head는 clipping에서 제외하고, decoder weights와 final LayerNorm을 optimizer update 직후 제약한다고 설명한다.

왜 이 글이 눈길을 끌었나

MachineLearning 커뮤니티에서 이 글이 흥미로운 이유는 효과 대비 개입이 너무 짧기 때문이다. 일반화 개선 기법 중 상당수는 복잡한 schedule이나 민감한 hyperparameter tuning을 요구한다. 반면 이 글은 고정된 max_norm=2.0, post-step projection, 비교적 넓은 optimizer tolerance만으로 grokking 계열 동역학이 크게 달라졌다고 주장한다. 만약 이런 패턴이 더 넓은 조건에서도 유지된다면, 그동안 느리고 불안정하다고 여겨졌던 grokking 현상을 연구하기 쉬워질 수 있다.

다만 작성자들 스스로도 범위를 좁게 잡는다. Reddit 본문은 현재 결과가 모두 modular arithmetic에서 나온 것이며, 277M LLM 실험은 아직 진행 중이고 그대로 전이되지 않을 수 있다고 명시한다. 따라서 정직한 해석은 “grokking 문제가 보편적으로 해결됐다”가 아니라 “값싼 개입이 좁은 benchmark에서 unusually large gain을 보였고, 이제 커뮤니티가 code와 PDF를 기준으로 그 주장을 검증할 수 있게 됐다”에 가깝다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.