HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。
#cuda
RSS Feed速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。
coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。
Hacker Newsのfront pageに上がったEE Times interviewは、AMDがROCm、Triton、OneROCm、open-sourceの運用でCUDA依存を段階的に削ろうとしていることを整理している。重要なのは派手な互換性宣言ではなく、vLLMやSGLangが自然に動くboringなsoftware完成度だ。
MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。
r/MachineLearningの投稿とリンク先のbenchmark記事は、RTX 5090のbatched FP32 SGEMMが非効率なcuBLAS経路に入り、GPU計算資源を大きく余らせていると主張する。
r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。
NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。
LocalLLaMAで広がったGreenBoostは、limited vRAM問題を回避しようとするexperimentalなLinux kernel moduleだ。2026年3月14日のPhoronix記事によれば、このGPLv2 projectはkernel moduleとCUDA shimを組み合わせ、大きなallocationをon-card vRAMの外にあるpinned system RAMとNVMe tierへ逃がしつつ、CUDA applicationの修正なしにより大きなLLM workloadを走らせることを狙っている。
r/singularityでByteDance SeedとTsinghua AIRによるCUDA Agentが注目された。torch.compile比で高いpass rateとspeedupを示し、GPU kernel最適化の自動化可能性を示唆している。
Hacker Newsで話題となったBarraCUDAは、CUDA `.cu`をLLVM依存なしでAMD GFX11向け`.hsaco`へ直接変換するオープンソースC99コンパイラとして紹介された。