#gpu-kernels

LLM Reddit Apr 24, 2026 1 min read

モデルより配管が熱い LocalLLaMAがDeepEP V2とTileKernelsに集まった理由

LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。

#nvidia #cuda #benchmarking