LLM Reddit Apr 24, 2026 1 min read
LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。
LocalLLaMAが反応したのは新しいスコア画像ではなく、MoEの配管を実際に速くする公開インフラだった。コメントもDeepSeekが通信とカーネルの仕事を外に出した点に熱を持っていた。
NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。