#systems

LLM Hacker News Apr 8, 2026 1 min read

MegaTrain、単一GPUで100B+パラメータLLMのfull precision学習を狙うHN注目論文

MegaTrainはparametersとoptimizer statesをhost memoryに置き、layerをGPUへstreamすることで、100B+ parameter LLMのfull precision学習を単一GPUで行うことを目指す。Hacker Newsで注目された理由は、問題をGPU台数ではなくmemory system設計として捉え直している点にある。

#llm-training #systems #gpu

AI Hacker News Mar 21, 2026 2 min read

Hacker Newsが捉えたFlash-KMeans、Exact K-MeansをGPUのonline primitiveへ

10 Mar 2026に提出された arXiv論文 Flash-KMeans は、Exact K-Means のGPU bottleneckである N x K distance matrix の HBM materialization と centroid update の atomic contention を直接狙う。Hacker Newsで 180 points と 14 comments を集めたのは、この結果が FlashAttention-style systems optimization、CPUとGPUの差、そして K-Means の online primitive 化という実務的な論点にすぐ接続されたからだ。

#k-means #gpu #systems

AI Reddit Mar 17, 2026 1 min read

r/MachineLearning: GraphZero、mmapとzero-copy tensorで巨大graphをRAMごと読み込まず扱うC++ engine

2026年3月15日のr/MachineLearningでは、GraphZero v0.2の紹介postが334 points、27 commentsを集めた。postとGitHub READMEは、SSD mmap、custom binary format、nanobind bridgeで100M+ node graphをconsumer hardware上で扱う方法を示している。

#graph-neural-networks #pytorch #c++

LLM Reddit Feb 26, 2026 1 min read

Redditが注目したDeepSeek DualPath: エージェント型LLMのKV-Cache I/Oボトルネック解消

r/LocalLLaMAで話題になったDualPath論文は、KV-Cacheの読み込み経路を二重化して推論スループットを改善する手法を提示した。arXiv要約では、オフライン最大1.87倍、オンライン平均1.96倍の改善が報告されている。

#llm-inference #kv-cache #rdma