r/MachineLearning, Clip to Grok 실험 주목... 단순한 weight norm clipping으로 grokking 지연 단축 주장
Original: [P] Weight Norm Clipping Accelerates Grokking 18-66× | Zero Failures Across 300 Seeds | PDF in Repo View original →
작지만 구체적인 grokking 실험이 Reddit에 올라왔다
2026년 3월 17일 r/MachineLearning 스레드에서 Clip to Grok는 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들이 제안한 개입은 surprisingly simple하다. optimizer step이 끝날 때마다 decoder layer의 각 weight row를 L2 norm 경계 안으로 다시 clipping하는 것이다. README는 이를 per-row weight norm clipping이라고 부르며, weight decay나 gradient filtering, optimizer별 재튜닝 없이 grokking delay를 없애는 방법으로 제시한다.
관심을 끈 것은 결과 수치다. repository 기준 modular arithmetic benchmark에서 2-layer 422k-parameter model은 Lion+Clip 조합으로 550 median step에 목표에 도달했고, AdamW baseline은 35,040 step이 걸렸다고 적었다. 8-layer 1.6M-parameter model에서는 1,570 step 대 28,905 step으로 약 18배 빠르며, edge initialization을 사용한 300회 실험에서 failure가 없었다고 주장한다. README는 embedding과 output head는 clipping에서 제외하고, decoder weights와 final LayerNorm을 optimizer update 직후 제약한다고 설명한다.
왜 이 글이 눈길을 끌었나
MachineLearning 커뮤니티에서 이 글이 흥미로운 이유는 효과 대비 개입이 너무 짧기 때문이다. 일반화 개선 기법 중 상당수는 복잡한 schedule이나 민감한 hyperparameter tuning을 요구한다. 반면 이 글은 고정된 max_norm=2.0, post-step projection, 비교적 넓은 optimizer tolerance만으로 grokking 계열 동역학이 크게 달라졌다고 주장한다. 만약 이런 패턴이 더 넓은 조건에서도 유지된다면, 그동안 느리고 불안정하다고 여겨졌던 grokking 현상을 연구하기 쉬워질 수 있다.
다만 작성자들 스스로도 범위를 좁게 잡는다. Reddit 본문은 현재 결과가 모두 modular arithmetic에서 나온 것이며, 277M LLM 실험은 아직 진행 중이고 그대로 전이되지 않을 수 있다고 명시한다. 따라서 정직한 해석은 “grokking 문제가 보편적으로 해결됐다”가 아니라 “값싼 개입이 좁은 benchmark에서 unusually large gain을 보였고, 이제 커뮤니티가 code와 PDF를 기준으로 그 주장을 검증할 수 있게 됐다”에 가깝다.
Related Articles
2026년 3월 19일 Hacker News에서 주목받은 agent-sat는 weighted MaxSAT benchmark를 상대로 스스로 실험과 코드 수정을 반복하는 오픈소스 프로젝트다. README 기준으로 2024 MaxSAT Evaluation 229개 인스턴스 중 220개를 풀었고, 5개는 대회 최고 기록을 넘어섰으며, 1개는 novel solve라고 주장한다.
r/MachineLearning에서 공유된 새 arXiv 논문은 unofficial model access provider가 연구 결과와 운영 신뢰성을 모두 흔들 수 있다고 지적한다.
2026년 3월 19일 Hacker News에 올라온 NanoGPT Slowrun 글은 크롤링 시점 기준 162점과 43개 댓글을 기록했다. Q Labs는 100M token으로 학습한 1.8B parameter ensemble이 통상 1B token이 필요한 baseline과 맞먹는 성능을 냈다고 주장한다.
Comments (0)
No comments yet. Be the first to comment!