AI Reddit Apr 11, 2026 1 min read
MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。
MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。