vLLM、初のMLPerf vision-language benchmark提出事例に参加

Original: We're proud to share that @NVIDIA submitted the first-ever MLPerf Vision Language Model (VLM) performance benchmark using vLLM. This achievement showcases the strength of our ongoing collaboration with NVIDIA Engineering. Check out their MLPerf blog and watch our On Demand Talk at GTC to learn more about how we are delivering the best performance on NVIDIA hardware. 🔗 Blog: http://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/ 🔗 Talk: http://nvidia.com/en-us/on-demand/session/gtc26-s82059/ View original →

Read in other languages: 한국어English
LLM Apr 10, 2026 By Insights AI 1 min read Source

vLLM projectは2026年4月9日のX postで、NVIDIAがvLLMを使って初のMLPerf Vision Language Model benchmarkを提出したと発表した。リンク先のNVIDIA Technical Blogによれば、Qwen3-VL-235B-A22BはMLPerf Inference suiteへ追加された最初のmultimodal modelで、v6.0ではofflineとserverの両scenarioが評価対象になっている。NVIDIAはこの項目でoffline 79 samples/sec、server 68 queries/secを示している。

もっとも、この発表はvLLM単独の勝利というより、Blackwell Ultra全体の最適化ストーリーの一部だ。NVIDIA blogはhardwareとopen-source softwareの継続的なco-optimizationにより、一部workloadで同じinfrastructure上のthroughputが最大2.7倍、token costが60%以上下がったと説明している。そのうえで重要なのは役割分担の明示だ。NVIDIAはQwen3-VL benchmarkでvLLMを使ったと書き、他の新benchmarkではTensorRT-LLM VisualGenなど別のtoolchainを使ったと区別している。

この点はopen-source serving ecosystemにとって意味が大きい。MLPerfは依然としてoperatorやmodel-serving teamが強く意識するbenchmarkであり、vLLMが最初のmultimodal trackに入ったことは、projectの位置づけがtext-only servingを超えてimage-heavy inferenceへ広がっていることを示す。どのdeploymentでも一つのstackが常に勝つ証明ではないが、top-tier multimodal benchmarkの見出しにopen-source frameworkが入った事実自体が重要なシグナルだ。

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.