RTX 5090のcuBLAS FP32 dispatch経路に性能問題の可能性
Original: [D] 60% MatMul Performance Bug in cuBLAS on RTX 5090 [D] View original →
コミュニティが注目したGPU性能の論点
2026-04-10のr/MachineLearning投稿は、RTX 5090における batched FP32 SGEMM が不適切な cuBLAS kernel path を選ばされている可能性を指摘した。確認時点でこのスレッドは93 score、6 commentsだった。Reddit本文には測定の要約があり、リンク先のMedium記事にはより長い profiling の説明が載っている。投稿者は検証環境として CUDA 13.2.51、cuBLAS 13.3.0、driver 595.58.03 を明記していた。
主張の中心は明快だ。投稿者が作成したTMAベースのSGEMM kernelは、RTX 5090のbatched cuBLAS pathより約1.4x〜1.7x速く、ncu profilingを見ると、5090は広い workload 範囲で同じ小さな simt_sgemm_128x32_8x5 kernel に固定されていたという。リンク先の記事では、この経路のFMA pipe utilizationはおよそ33%〜42%に留まると説明されている。比較対象として示されたRTX PRO 6000は約73%、H200は約82%に達したとされる。
- 投稿されたbenchmarkでは、1024〜8192のbatched sizeでcustom kernelが
cuBLASを46%〜70%上回った。 - 投稿者は、これは単なるthreshold missではなく、RTX 5090向けbatched FP32 dispatcherの escalation logic が欠けているように見えると解釈している。
- Medium記事では、厳密なFP32精度を保つ
cuBLASLtもSIMT寄りの経路に留まり、FAST_TF32やBF16が速いのは入力精度のtrade-offを受け入れるからだとも述べている。
この論点が重要なのは、現代のAI workloadの多くが最終的に大規模 matmul の上に載っているからだ。consumer RTXカードでdispatch qualityが弱ければ、ローカル学習や推論、benchmarkingのコストと遅延に直結する。またこの投稿は、TMAが単に高速なだけでなく、比較的コンパクトな実装でも良好な効率に近づけるというメッセージも持っている。つまり差はsiliconだけではなく、software routingにもあるかもしれないということだ。
ただし現時点では、これはNVIDIAが確認した公式bug告知ではない。根拠は投稿者のbenchmark、profiler trace、リンク先のwriteupだ。Redditの反応もまだ限定的で、最上位commentは「なぜNVIDIA forumではなくRedditに投稿したのか」という問いだった。したがって最も安全な読み方は、コミュニティが再現に値する技術的な性能課題を表面化させた、というものだろう。
Source links: Reddit thread, Medium benchmark writeup, DeploDock repository.
Related Articles
LocalLLaMA の DGX Spark ユーザー投稿は、NVFP4 がまだ production-ready から遠いと主張した。議論はすぐに、NVIDIA の高価な local AI マシンがなお価格を正当化できるかへ広がった。
NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。
xAIは、Grok ImagineのQuality modeで世界知識とprompt understandingが強化されると説明した。複雑なシーン、physics、object relationship、ブランドや地域・文化参照の解釈精度が高まるという。
Comments (0)
No comments yet. Be the first to comment!