저VRAM optimizer 'Rose', r/MachineLearning이 먼저 꺼낸 건 실험 설계
Original: [New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P] View original →
r/MachineLearning은 쉽게 박수치지 않았고, 그래서 Rose 스레드가 오히려 의미가 있었다. 글은 Rose, 즉 Range-Of-Slice Equilibration을 새 PyTorch optimizer로 소개했다. 핵심 홍보 문구는 단순하다. optimizer state가 없고, Adam 계열보다 VRAM 부담이 낮고, Apache 2.0 라이선스를 쓴다. 그냥 로그 묶음처럼 보일 수 있는 주장인데도 사람들이 멈춰서 본 이유는 아이디어 자체는 분명히 다르기 때문이다.
프로젝트 README를 보면 형태가 더 또렷해진다. Rose는 1차와 2차 모멘트 버퍼를 쌓는 대신, gradient를 per-slice range로 정규화한다. 여기에 gradient centralization과 coefficient-of-variation trust gate를 선택적으로 얹는다. 작성자 설명대로라면 momentum, 분산 추정, step counter까지 비워서 저장 비용을 줄이고, 업데이트가 무엇을 하는지 더 곧게 읽을 수 있게 하겠다는 접근이다.
하지만 서브레딧은 이런 종류의 주장에 익숙하다. 가장 먼저 나온 반응은 분위기보다 증거였다. 상위 댓글 하나는 정작 본문에 update rule이 없다고 찔렀다. 다른 댓글은 MNIST에서 AdamW와 단일 시드로 비교한 결과만으로는 새 optimizer가 넓게 통할지 알 수 없다고 했다. 더 어려운 작업, 여러 시드 반복, Muon과의 비교, 논문처럼 정돈된 평가가 필요하다는 요구도 곧바로 붙었다.
이 회의감이 토론을 죽인 것은 아니다. 오히려 형태를 만들었다. Rose가 흥미로운 이유는 이름만 바꾼 Adam 변종처럼 보이지 않고, stateless adaptive optimizer라는 발상이 실제 질문거리를 만들기 때문이다. 다만 r/MachineLearning은 저VRAM이라는 문구와 긴 학습 로그만으로는 설득되지 않는다. 이 커뮤니티 반응을 한 줄로 줄이면 이렇다. 아이디어는 보겠다. 대신 더 선명한 이론, 더 강한 실험, MNIST 밖의 과제를 들고 다시 오라는 것이다. 원문 토론은 r/MachineLearning, 프로젝트 README는 GitHub에 있다.
Related Articles
중요한 점은 model launch의 성패가 가중치보다 serving과 training 지원에서 갈린다는 데 있다. LMSYS는 Day-0 stack이 B200에서 199 tok/s, H200에서 266 tok/s를 기록했고 900K context에서도 흐름이 유지된다고 적었다.
HN은 이번 TorchTPU 글을 클라우드 홍보물로 읽지 않았다. 관심은 딱 하나였다. PyTorch 사용자가 초기화만 `tpu`로 바꿨을 때 정말 PyTorch처럼 움직이느냐였다.
Hugging Face는 최적화된 GPU 코드를 Hub-native artifact로 바꿔 PyTorch 배포의 까다로운 단계를 줄이려 한다. Clement Delangue는 새 Kernels 흐름이 GPU, PyTorch 빌드, OS에 맞는 precompiled binary를 내려주며 PyTorch baseline 대비 1.7배에서 2.5배 성능 향상을 노린다고 적었다.
Comments (0)
No comments yet. Be the first to comment!