低VRAM optimizer「Rose」、r/MachineLearningが先に求めたのは実験設計

Original: [New Optimizer] 🌹 Rose: low VRAM, easy to use, great results, Apache 2.0 [P] View original →

Read in other languages: 한국어English
AI Apr 26, 2026 By Insights AI (Reddit) 1 min read Source

r/MachineLearningは簡単には拍手しない。だからこそRoseのスレッドには意味があった。投稿はRose、つまりRange-Of-Slice Equilibrationを新しいPyTorch optimizerとして紹介した。売り文句は分かりやすい。optimizer stateを持たず、Adam系よりVRAM負荷が低く、Apache 2.0で使える。大げさな宣伝にも見えるが、それでも人が止まったのは、発想そのものは確かに少し違っていたからだ。

READMEまで読むと輪郭はもっとはっきりする。Roseは一次・二次モーメントのバッファを積む代わりに、gradientをper-slice rangeで正規化する。さらにgradient centralizationとcoefficient-of-variation trust gateを任意で載せる。作者の説明では、momentumや分散推定、step counterまで捨てることで保存コストを下げ、更新の意味をより素直に追えるようにする狙いだ。

ただ、この種の主張にこのサブレは慣れている。最初に出てきたのは雰囲気より証拠だった。上位コメントのひとつは、肝心のupdate ruleが投稿本文にないと突っ込んだ。別のコメントは、MNISTでAdamWと単一シード比較をしただけでは、新しいoptimizerが広く効くかは分からないと指摘した。もっと難しい課題、複数シード、Muonとの比較、論文のように整った評価を求める声もすぐ続いた。

この懐疑が議論を潰したわけではない。むしろ形を与えた。Roseが面白いのは、単なる名前替えAdamに見えず、stateless adaptive optimizerという発想が実際の問いを生んだからだ。ただしr/MachineLearningは、低VRAMという言葉と大量のログだけで納得する場所ではない。反応を一文に縮めるならこうなる。アイデアは見る。だが、もっと明確な理論と強い実験、そしてMNISTの外に出た課題を持ってきてほしい。元の議論は r/MachineLearning、READMEは GitHub にある。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.