#training

AI Reddit 1d ago 1 min read

低VRAM optimizer「Rose」、r/MachineLearningが先に求めたのは実験設計

ゼロ状態のoptimizerという売り文句は強かったが、r/MachineLearningの反応はいつも通りだった。更新則、複数シード、もっと重い課題を持ってこいという要求だ。

AI sources.twitter 1d ago 1 min read

LMSYS、DeepSeek-V4 Day-0対応でH200 266 tok/sの実測スループットを示した

重要なのは、model launchの成否がweightsだけでなくservingとtrainingの支援に左右されることだ。LMSYSはDay-0 stackでB200 199 tok/s、H200 266 tok/sを示し、900K contextでも落ち込みが小さいと書いた。

#lmsys #deepseek #benchmarks

LLM Apr 11, 2026 1 min read

GitHub、Copilot の interaction data を既定でモデル学習に利用へ

GitHub は April 24, 2026 から、Copilot Free、Pro、Pro+ ユーザーの interaction data を、ユーザーが opt out しない限り AI model の学習と改善に利用すると発表した。Business と Enterprise は対象外だが、個人向け Copilot 利用が model development に戻される範囲は大きく広がる。

#github #copilot #privacy

AI Reddit Mar 20, 2026 1 min read

r/MachineLearningがClip to Grokを注視、単純なweight norm clippingでgrokking遅延短縮を主張

2026年3月17日にr/MachineLearningへ投稿されたClip to Grokスレッドは、クロール時点で56ポイントと20件のコメントを集めた。投稿者は、optimizer stepごとにdecoder weight rowをL2 clippingすることで、modular arithmetic benchmarkで18倍から66倍速いgeneralizationを得たと主張している。

#grokking #optimization #transformers

AI Hacker News Mar 20, 2026 1 min read

Hacker NewsがNanoGPT Slowrunのデータ効率10倍主張を追跡、固定データ時代の新実験

2026年3月19日にHacker Newsへ投稿されたNanoGPT Slowrunスレッドは、クロール時点で162ポイントと43件のコメントを集めた。Q Labsは、100M tokenで学習した1.8B parameter ensembleが通常1B tokenを要するbaselineに匹敵したと主張している。

#language-models #data-efficiency #ensembles

LLM Hacker News Mar 20, 2026 1 min read

Hacker Newsが見るNanoGPT Slowrunの10xデータ効率主張

Q Labsは100M tokensと18B-parameter ensembleで1B-token baselineに匹敵すると主張し、Hacker Newsではその利得が serving と deployment まで成立するのかがすぐに論点になった。

#llm #training #scaling-laws

LLM Hacker News Mar 20, 2026 1 min read

Hacker Newsで議論、16 GPU版Autoresearchは何を変えたのか

SkyPilotはClaude Codeが8時間で約910件の autoresearch 実験を回したと説明し、Hacker Newsでは本当の進歩が agent の戦略なのか、インフラなのか、その両方なのかが議論になった。

#llm #gpus #agents

AI Mar 17, 2026 1 min read

Google、$30 millionを投じて AI Works for Europe を開始　多言語 training を拡充

Googleは AI Works for Europe を発表し、Google.org European AI Opportunity Fund に $30 million を追加すると述べた。Worker training、university partnership、ten European languages での certificate rollout を組み合わせた施策だ。

#google #europe #ai-skills

AI Reddit Mar 17, 2026 1 min read

r/MachineLearning: preflight、label leakageやNaNを学習前に止めるPyTorch pre-training validator

2026年3月15日のr/MachineLearningでは、preflight紹介postが56 points、13 commentsを記録した。lightweightなCLIで、PyTorch training前にlabel leakage、NaN、channel ordering、dead gradients、class imbalance、VRAM riskなど10項目を検査する。

#pytorch #mlops #data-validation

AI Reddit Mar 16, 2026 1 min read