vLLM、初のMLPerf vision-language benchmark提出事例に参加

Original: We're proud to share that @NVIDIA submitted the first-ever MLPerf Vision Language Model (VLM) performance benchmark using vLLM. This achievement showcases the strength of our ongoing collaboration with NVIDIA Engineering. Check out their MLPerf blog and watch our On Demand Talk at GTC to learn more about how we are delivering the best performance on NVIDIA hardware. 🔗 Blog: http://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/ 🔗 Talk: http://nvidia.com/en-us/on-demand/session/gtc26-s82059/ View original →

Read in other languages: 한국어 English

LLM Apr 10, 2026 By Insights AI 1 min read Source

vLLM projectは2026年4月9日のX postで、NVIDIAがvLLMを使って初のMLPerf Vision Language Model benchmarkを提出したと発表した。リンク先のNVIDIA Technical Blogによれば、Qwen3-VL-235B-A22BはMLPerf Inference suiteへ追加された最初のmultimodal modelで、v6.0ではofflineとserverの両scenarioが評価対象になっている。NVIDIAはこの項目でoffline 79 samples/sec、server 68 queries/secを示している。

もっとも、この発表はvLLM単独の勝利というより、Blackwell Ultra全体の最適化ストーリーの一部だ。NVIDIA blogはhardwareとopen-source softwareの継続的なco-optimizationにより、一部workloadで同じinfrastructure上のthroughputが最大2.7倍、token costが60%以上下がったと説明している。そのうえで重要なのは役割分担の明示だ。NVIDIAはQwen3-VL benchmarkでvLLMを使ったと書き、他の新benchmarkではTensorRT-LLM VisualGenなど別のtoolchainを使ったと区別している。

この点はopen-source serving ecosystemにとって意味が大きい。MLPerfは依然としてoperatorやmodel-serving teamが強く意識するbenchmarkであり、vLLMが最初のmultimodal trackに入ったことは、projectの位置づけがtext-only servingを超えてimage-heavy inferenceへ広がっていることを示す。どのdeploymentでも一つのstackが常に勝つ証明ではないが、top-tier multimodal benchmarkの見出しにopen-source frameworkが入った事実自体が重要なシグナルだ。

LLM Reddit Mar 16, 2026 1 min read

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。

#[#"#q

LLM Reddit 2d ago 1 min read

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA スレッドは speculative decoding 向けの block-diffusion draft model、DFlash に注目を集めた。論文は 6x 超の lossless acceleration と、vLLM、SGLang、一部 Transformers backend の直接サポートを打ち出している。

#[#"#s

LLM Reddit Mar 15, 2026 1 min read

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。

#[#"#q

vLLM、初のMLPerf vision-language benchmark提出事例に参加

Related Articles

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

LocalLLaMA、DFlashを高速 speculative decoding へのオープンソース経路として注目

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

Comments (0)

Leave a Comment