MegaTrainはparametersとoptimizer statesをhost memoryに置き、layerをGPUへstreamすることで、100B+ parameter LLMのfull precision学習を単一GPUで行うことを目指す。Hacker Newsで注目された理由は、問題をGPU台数ではなくmemory system設計として捉え直している点にある。
#systems
RSS FeedLLM Hacker News Apr 8, 2026 1 min read
AI Hacker News Mar 21, 2026 2 min read
10 Mar 2026に提出された arXiv論文 Flash-KMeans は、Exact K-Means のGPU bottleneckである N x K distance matrix の HBM materialization と centroid update の atomic contention を直接狙う。Hacker Newsで 180 points と 14 comments を集めたのは、この結果が FlashAttention-style systems optimization、CPUとGPUの差、そして K-Means の online primitive 化という実務的な論点にすぐ接続されたからだ。
AI Reddit Mar 17, 2026 1 min read
2026年3月15日のr/MachineLearningでは、GraphZero v0.2の紹介postが334 points、27 commentsを集めた。postとGitHub READMEは、SSD mmap、custom binary format、nanobind bridgeで100M+ node graphをconsumer hardware上で扱う方法を示している。
LLM Reddit Feb 26, 2026 1 min read
r/LocalLLaMAで話題になったDualPath論文は、KV-Cacheの読み込み経路を二重化して推論スループットを改善する手法を提示した。arXiv要約では、オフライン最大1.87倍、オンライン平均1.96倍の改善が報告されている。