저VRAM optimizer 'Rose', r/MachineLearning이 먼저 꺼낸 건 실험 설계

r/MachineLearning은 쉽게 박수치지 않았고, 그래서 Rose 스레드가 오히려 의미가 있었다. 글은 Rose, 즉 Range-Of-Slice Equilibration을 새 PyTorch optimizer로 소개했다. 핵심 홍보 문구는 단순하다. optimizer state가 없고, Adam 계열보다 VRAM 부담이 낮고, Apache 2.0 라이선스를 쓴다. 그냥 로그 묶음처럼 보일 수 있는 주장인데도 사람들이 멈춰서 본 이유는 아이디어 자체는 분명히 다르기 때문이다.

프로젝트 README를 보면 형태가 더 또렷해진다. Rose는 1차와 2차 모멘트 버퍼를 쌓는 대신, gradient를 per-slice range로 정규화한다. 여기에 gradient centralization과 coefficient-of-variation trust gate를 선택적으로 얹는다. 작성자 설명대로라면 momentum, 분산 추정, step counter까지 비워서 저장 비용을 줄이고, 업데이트가 무엇을 하는지 더 곧게 읽을 수 있게 하겠다는 접근이다.

하지만 서브레딧은 이런 종류의 주장에 익숙하다. 가장 먼저 나온 반응은 분위기보다 증거였다. 상위 댓글 하나는 정작 본문에 update rule이 없다고 찔렀다. 다른 댓글은 MNIST에서 AdamW와 단일 시드로 비교한 결과만으로는 새 optimizer가 넓게 통할지 알 수 없다고 했다. 더 어려운 작업, 여러 시드 반복, Muon과의 비교, 논문처럼 정돈된 평가가 필요하다는 요구도 곧바로 붙었다.

이 회의감이 토론을 죽인 것은 아니다. 오히려 형태를 만들었다. Rose가 흥미로운 이유는 이름만 바꾼 Adam 변종처럼 보이지 않고, stateless adaptive optimizer라는 발상이 실제 질문거리를 만들기 때문이다. 다만 r/MachineLearning은 저VRAM이라는 문구와 긴 학습 로그만으로는 설득되지 않는다. 이 커뮤니티 반응을 한 줄로 줄이면 이렇다. 아이디어는 보겠다. 대신 더 선명한 이론, 더 강한 실험, MNIST 밖의 과제를 들고 다시 오라는 것이다. 원문 토론은 r/MachineLearning, 프로젝트 README는 GitHub에 있다.

저VRAM optimizer 'Rose', r/MachineLearning이 먼저 꺼낸 건 실험 설계

Related Articles

LMSYS, DeepSeek-V4 Day-0 지원에서 H200 266 tok/s 성능을 제시

TorchTPU에 HN이 꽂힌 한 줄, `device="tpu"`가 진짜 되느냐

Hugging Face, Hub에서 GPU kernel 바로 배포… PyTorch 대비 최대 2.5배

Comments (0)

Leave a Comment

Related Articles

LMSYS, DeepSeek-V4 Day-0 지원에서 H200 266 tok/s 성능을 제시

TorchTPU에 HN이 꽂힌 한 줄, `device="tpu"`가 진짜 되느냐

Hugging Face, Hub에서 GPU kernel 바로 배포… PyTorch 대비 최대 2.5배
AI Apr 14, 2026 1 min read