r/MachineLearning, Clip to Grok 실험 주목... 단순한 weight norm clipping으로 grokking 지연 단축 주장
Original: [P] Weight Norm Clipping Accelerates Grokking 18-66× | Zero Failures Across 300 Seeds | PDF in Repo View original →
작지만 구체적인 grokking 실험이 Reddit에 올라왔다
2026년 3월 17일 r/MachineLearning 스레드에서 Clip to Grok는 크롤링 시점 기준 56점과 20개 댓글을 기록했다. 작성자들이 제안한 개입은 surprisingly simple하다. optimizer step이 끝날 때마다 decoder layer의 각 weight row를 L2 norm 경계 안으로 다시 clipping하는 것이다. README는 이를 per-row weight norm clipping이라고 부르며, weight decay나 gradient filtering, optimizer별 재튜닝 없이 grokking delay를 없애는 방법으로 제시한다.
관심을 끈 것은 결과 수치다. repository 기준 modular arithmetic benchmark에서 2-layer 422k-parameter model은 Lion+Clip 조합으로 550 median step에 목표에 도달했고, AdamW baseline은 35,040 step이 걸렸다고 적었다. 8-layer 1.6M-parameter model에서는 1,570 step 대 28,905 step으로 약 18배 빠르며, edge initialization을 사용한 300회 실험에서 failure가 없었다고 주장한다. README는 embedding과 output head는 clipping에서 제외하고, decoder weights와 final LayerNorm을 optimizer update 직후 제약한다고 설명한다.
왜 이 글이 눈길을 끌었나
MachineLearning 커뮤니티에서 이 글이 흥미로운 이유는 효과 대비 개입이 너무 짧기 때문이다. 일반화 개선 기법 중 상당수는 복잡한 schedule이나 민감한 hyperparameter tuning을 요구한다. 반면 이 글은 고정된 max_norm=2.0, post-step projection, 비교적 넓은 optimizer tolerance만으로 grokking 계열 동역학이 크게 달라졌다고 주장한다. 만약 이런 패턴이 더 넓은 조건에서도 유지된다면, 그동안 느리고 불안정하다고 여겨졌던 grokking 현상을 연구하기 쉬워질 수 있다.
다만 작성자들 스스로도 범위를 좁게 잡는다. Reddit 본문은 현재 결과가 모두 modular arithmetic에서 나온 것이며, 277M LLM 실험은 아직 진행 중이고 그대로 전이되지 않을 수 있다고 명시한다. 따라서 정직한 해석은 “grokking 문제가 보편적으로 해결됐다”가 아니라 “값싼 개입이 좁은 benchmark에서 unusually large gain을 보였고, 이제 커뮤니티가 code와 PDF를 기준으로 그 주장을 검증할 수 있게 됐다”에 가깝다.
Related Articles
Google DeepMind의 Sierra Leone 교실 실험에서 학생들의 문제 접근 질문 비중이 68%에서 90%로 늘었다. 8주간 1,763명을 대상으로 한 RCT라는 점에서 교육용 AI 논의가 사용감이 아니라 행동 변화 지표로 이동했다.
2026년 3월 19일 Hacker News에서 주목받은 agent-sat는 weighted MaxSAT benchmark를 상대로 스스로 실험과 코드 수정을 반복하는 오픈소스 프로젝트다. README 기준으로 2024 MaxSAT Evaluation 229개 인스턴스 중 220개를 풀었고, 5개는 대회 최고 기록을 넘어섰으며, 1개는 novel solve라고 주장한다.
OpenAI의 범용 추론 모델이 에르되시의 평면 단위거리 문제 추측 상한을 반증하는 반례를 찾아냈다고 발표했습니다. 수학자들이 증명을 검토했지만 ML 커뮤니티는 방법론 투명성에 의문을 제기합니다.