#training

RSS Feed
AI Reddit Mar 20, 2026 1 min read

2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。

© 2026 Insights. All rights reserved.