低VRAM optimizer「Rose」、r/MachineLearningが先に求めたのは実験設計

r/MachineLearningは簡単には拍手しない。だからこそRoseのスレッドには意味があった。投稿はRose、つまりRange-Of-Slice Equilibrationを新しいPyTorch optimizerとして紹介した。売り文句は分かりやすい。optimizer stateを持たず、Adam系よりVRAM負荷が低く、Apache 2.0で使える。大げさな宣伝にも見えるが、それでも人が止まったのは、発想そのものは確かに少し違っていたからだ。

READMEまで読むと輪郭はもっとはっきりする。Roseは一次・二次モーメントのバッファを積む代わりに、gradientをper-slice rangeで正規化する。さらにgradient centralizationとcoefficient-of-variation trust gateを任意で載せる。作者の説明では、momentumや分散推定、step counterまで捨てることで保存コストを下げ、更新の意味をより素直に追えるようにする狙いだ。

ただ、この種の主張にこのサブレは慣れている。最初に出てきたのは雰囲気より証拠だった。上位コメントのひとつは、肝心のupdate ruleが投稿本文にないと突っ込んだ。別のコメントは、MNISTでAdamWと単一シード比較をしただけでは、新しいoptimizerが広く効くかは分からないと指摘した。もっと難しい課題、複数シード、Muonとの比較、論文のように整った評価を求める声もすぐ続いた。

この懐疑が議論を潰したわけではない。むしろ形を与えた。Roseが面白いのは、単なる名前替えAdamに見えず、stateless adaptive optimizerという発想が実際の問いを生んだからだ。ただしr/MachineLearningは、低VRAMという言葉と大量のログだけで納得する場所ではない。反応を一文に縮めるならこうなる。アイデアは見る。だが、もっと明確な理論と強い実験、そしてMNISTの外に出た課題を持ってきてほしい。元の議論は r/MachineLearning、READMEは GitHub にある。

低VRAM optimizer「Rose」、r/MachineLearningが先に求めたのは実験設計

Related Articles

LMSYS、DeepSeek-V4 Day-0対応でH200 266 tok/sの実測スループットを示した

TorchTPUでHNが見た争点は一つ「device="tpu"で本当に動くのか」

Claude for Word、Pro・Maxでtracked changes付きの文書編集に対応した

Comments (0)

Leave a Comment

Related Articles

LMSYS、DeepSeek-V4 Day-0対応でH200 266 tok/sの実測スループットを示した
重要なのは、model launchの成否がweightsだけでなくservingとtrainingの支援に左右されることだ。LMSYSはDay-0 stackでB200 199 tok/s、H200 266 tok/sを示し、900K contextでも落ち込みが小さいと書いた。

TorchTPUでHNが見た争点は一つ「device="tpu"で本当に動くのか」

Claude for Word、Pro・Maxでtracked changes付きの文書編集に対応した
AI sources.twitter Apr 19, 2026 1 min read