#llm-training

LLM Apr 23, 2026 1 min read

DeepMindのDecoupled DiLoCo、障害で止まらない分散学習設計

遠隔データセンターをまたぐ学習は、同期コストと障害の連鎖で急に重くなる。DeepMindはDecoupled DiLoCoによって、8データセンター構成で必要帯域を198 Gbpsから0.84 Gbpsまで下げつつ、平均ML精度64.1%を維持したとしている。

#google-deepmind #diloco #llm-training

LLM Hacker News Apr 8, 2026 1 min read

MegaTrain、単一GPUで100B+パラメータLLMのfull precision学習を狙うHN注目論文

MegaTrainはparametersとoptimizer statesをhost memoryに置き、layerをGPUへstreamすることで、100B+ parameter LLMのfull precision学習を単一GPUで行うことを目指す。Hacker Newsで注目された理由は、問題をGPU台数ではなくmemory system設計として捉え直している点にある。

#llm-training #systems #gpu

LLM X/Twitter Apr 4, 2026 1 min read

Anthropic、Claude への大規模 distillation attack を主張　2.4万アカウント・1600万件超の対話を言及

Anthropicは2026年2月23日、DeepSeek、Moonshot AI、MiniMaxがClaudeに対して大規模なdistillation attackを行ったとXで主張した。model output extraction を競争上の問題だけでなく、security と platform integrity の問題として扱った点が重要だ。

#model-distillation #ai-security #claude

LLM Reddit Mar 10, 2026 1 min read

LocalLLaMAが注目した35.6万行規模の人間コードレビューデータセット

LocalLLaMA投稿は、Hugging Face上の新しい人間コードレビューデータセットを紹介した。inline reviewer comment、変更前後コード、negative exampleを37言語で束ねた構成が特徴だ。

#code-review #datasets #github

LLM X/Twitter Mar 9, 2026 1 min read

Karpathy、単一GPUのnanochat実験を自動化するautoresearchを公開

Andrej Karpathyが、縮小版nanochat training loopをAI agentがovernightで反復実験できるautoresearch repoを公開した。固定5分run、Git branch、validation lossベースの選別を組み合わせ、agent研究をclosed-loop workflowに変える試みだ。

#karpathy #agents #open-source

LLM Hacker News Mar 5, 2026 1 min read

NanoGPT Slowrunを巡る議論拡大、固定データ条件でのLLM学習効率に注目

2026年3月4日のHNでQ LabsのSlowrunが注目を集めた。100M FineWeb tokensを固定し、computeを使ってdata efficiencyを高める設計が焦点になっている。

#nanogpt #data-efficiency #llm-training

LLM Reddit Feb 21, 2026 1 min read

Reddit注目: arXiv 2602.15322が示すMagma最適化、LLM事前学習で更新マスキングを検証

r/singularityで拡散した投稿はarXiv 2602.15322を共有した。論文はmasked adaptive updatesとMagmaにより、1BモデルでAdam・Muon比のperplexity改善を低オーバーヘッドで得たと報告する。

#llm-training #optimizers #rmsprop