遠隔データセンターをまたぐ学習は、同期コストと障害の連鎖で急に重くなる。DeepMindはDecoupled DiLoCoによって、8データセンター構成で必要帯域を198 Gbpsから0.84 Gbpsまで下げつつ、平均ML精度64.1%を維持したとしている。
#llm-training
RSS FeedMegaTrainはparametersとoptimizer statesをhost memoryに置き、layerをGPUへstreamすることで、100B+ parameter LLMのfull precision学習を単一GPUで行うことを目指す。Hacker Newsで注目された理由は、問題をGPU台数ではなくmemory system設計として捉え直している点にある。
Anthropicは2026年2月23日、DeepSeek、Moonshot AI、MiniMaxがClaudeに対して大規模なdistillation attackを行ったとXで主張した。model output extraction を競争上の問題だけでなく、security と platform integrity の問題として扱った点が重要だ。
LocalLLaMA投稿は、Hugging Face上の新しい人間コードレビューデータセットを紹介した。inline reviewer comment、変更前後コード、negative exampleを37言語で束ねた構成が特徴だ。
Andrej Karpathyが、縮小版nanochat training loopをAI agentがovernightで反復実験できるautoresearch repoを公開した。固定5分run、Git branch、validation lossベースの選別を組み合わせ、agent研究をclosed-loop workflowに変える試みだ。
2026年3月4日のHNでQ LabsのSlowrunが注目を集めた。100M FineWeb tokensを固定し、computeを使ってdata efficiencyを高める設計が焦点になっている。
r/singularityで拡散した投稿はarXiv 2602.15322を共有した。論文はmasked adaptive updatesとMagmaにより、1BモデルでAdam・Muon比のperplexity改善を低オーバーヘッドで得たと報告する。