RTX 5090のcuBLAS FP32 dispatch経路に性能問題の可能性

コミュニティが注目したGPU性能の論点

2026-04-10のr/MachineLearning投稿は、RTX 5090における batched FP32 SGEMM が不適切な cuBLAS kernel path を選ばされている可能性を指摘した。確認時点でこのスレッドは93 score、6 commentsだった。Reddit本文には測定の要約があり、リンク先のMedium記事にはより長い profiling の説明が載っている。投稿者は検証環境として CUDA 13.2.51、cuBLAS 13.3.0、driver 595.58.03 を明記していた。

主張の中心は明快だ。投稿者が作成したTMAベースのSGEMM kernelは、RTX 5090のbatched cuBLAS pathより約1.4x〜1.7x速く、ncu profilingを見ると、5090は広い workload 範囲で同じ小さな simt_sgemm_128x32_8x5 kernel に固定されていたという。リンク先の記事では、この経路のFMA pipe utilizationはおよそ33%〜42%に留まると説明されている。比較対象として示されたRTX PRO 6000は約73%、H200は約82%に達したとされる。

投稿されたbenchmarkでは、1024〜8192のbatched sizeでcustom kernelが cuBLAS を46%〜70%上回った。
投稿者は、これは単なるthreshold missではなく、RTX 5090向けbatched FP32 dispatcherの escalation logic が欠けているように見えると解釈している。
Medium記事では、厳密なFP32精度を保つ cuBLASLt もSIMT寄りの経路に留まり、FAST_TF32 や BF16 が速いのは入力精度のtrade-offを受け入れるからだとも述べている。

この論点が重要なのは、現代のAI workloadの多くが最終的に大規模 matmul の上に載っているからだ。consumer RTXカードでdispatch qualityが弱ければ、ローカル学習や推論、benchmarkingのコストと遅延に直結する。またこの投稿は、TMAが単に高速なだけでなく、比較的コンパクトな実装でも良好な効率に近づけるというメッセージも持っている。つまり差はsiliconだけではなく、software routingにもあるかもしれないということだ。

ただし現時点では、これはNVIDIAが確認した公式bug告知ではない。根拠は投稿者のbenchmark、profiler trace、リンク先のwriteupだ。Redditの反応もまだ限定的で、最上位commentは「なぜNVIDIA forumではなくRedditに投稿したのか」という問いだった。したがって最も安全な読み方は、コミュニティが再現に値する技術的な性能課題を表面化させた、というものだろう。

Source links: Reddit thread, Medium benchmark writeup, DeploDock repository.

RTX 5090のcuBLAS FP32 dispatch経路に性能問題の可能性

コミュニティが注目したGPU性能の論点

Related Articles

LocalLLaMAで警告: DGX Spark の NVFP4 はまだ production-ready ではないという指摘

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

xAI、Grok ImagineのQuality modeが世界知識をどう強化するか説明

Comments (0)

Leave a Comment