vLLM、初のMLPerf vision-language benchmark提出事例に参加
Original: We're proud to share that @NVIDIA submitted the first-ever MLPerf Vision Language Model (VLM) performance benchmark using vLLM. This achievement showcases the strength of our ongoing collaboration with NVIDIA Engineering. Check out their MLPerf blog and watch our On Demand Talk at GTC to learn more about how we are delivering the best performance on NVIDIA hardware. 🔗 Blog: http://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/ 🔗 Talk: http://nvidia.com/en-us/on-demand/session/gtc26-s82059/ View original →
vLLM projectは2026年4月9日のX postで、NVIDIAがvLLMを使って初のMLPerf Vision Language Model benchmarkを提出したと発表した。リンク先のNVIDIA Technical Blogによれば、Qwen3-VL-235B-A22BはMLPerf Inference suiteへ追加された最初のmultimodal modelで、v6.0ではofflineとserverの両scenarioが評価対象になっている。NVIDIAはこの項目でoffline 79 samples/sec、server 68 queries/secを示している。
もっとも、この発表はvLLM単独の勝利というより、Blackwell Ultra全体の最適化ストーリーの一部だ。NVIDIA blogはhardwareとopen-source softwareの継続的なco-optimizationにより、一部workloadで同じinfrastructure上のthroughputが最大2.7倍、token costが60%以上下がったと説明している。そのうえで重要なのは役割分担の明示だ。NVIDIAはQwen3-VL benchmarkでvLLMを使ったと書き、他の新benchmarkではTensorRT-LLM VisualGenなど別のtoolchainを使ったと区別している。
この点はopen-source serving ecosystemにとって意味が大きい。MLPerfは依然としてoperatorやmodel-serving teamが強く意識するbenchmarkであり、vLLMが最初のmultimodal trackに入ったことは、projectの位置づけがtext-only servingを超えてimage-heavy inferenceへ広がっていることを示す。どのdeploymentでも一つのstackが常に勝つ証明ではないが、top-tier multimodal benchmarkの見出しにopen-source frameworkが入った事実自体が重要なシグナルだ。
Related Articles
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。
Comments (0)
No comments yet. Be the first to comment!