AI Reddit Apr 11, 2026 2 min read
MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.
MachineLearning 커뮤니티의 한 글은 RTX 5090에서 cuBLAS가 batched FP32 MatMul에 비효율적인 kernel을 고르고 있을 가능성을 제기한다. 핵심은 단순한 체감 저하가 아니라, reproducible benchmark와 profiling data를 갖춘 dispatch 문제 제기라는 점이다.