vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다

Original: We're proud to share that @NVIDIA submitted the first-ever MLPerf Vision Language Model (VLM) performance benchmark using vLLM. This achievement showcases the strength of our ongoing collaboration with NVIDIA Engineering. Check out their MLPerf blog and watch our On Demand Talk at GTC to learn more about how we are delivering the best performance on NVIDIA hardware. 🔗 Blog: http://developer.nvidia.com/blog/nvidia-platform-delivers-lowest-token-cost-enabled-by-extreme-co-design/ 🔗 Talk: http://nvidia.com/en-us/on-demand/session/gtc26-s82059/ View original →

Read in other languages: English日本語
LLM Apr 10, 2026 By Insights AI 1 min read Source

vLLM 프로젝트는 2026년 4월 9일 X post에서 NVIDIA가 vLLM을 사용해 첫 MLPerf Vision Language Model benchmark를 제출했다고 밝혔다. 함께 링크된 NVIDIA Technical Blog에 따르면 Qwen3-VL-235B-A22B는 MLPerf Inference suite에 새로 추가된 첫 multimodal model이며, v6.0에서 offline과 server 시나리오가 함께 측정됐다. NVIDIA는 이 항목에서 offline 79 samples/sec, server 68 queries/sec를 제시했다.

다만 이 발표를 vLLM 단독 성과로 읽는 것은 과장이다. NVIDIA blog는 이번 결과를 더 큰 Blackwell Ultra 최적화 이야기 안에 배치하며, hardware와 open-source software의 공동 최적화로 일부 workload에서 최대 2.7배 throughput과 60% 이상 낮은 token cost를 달성했다고 설명한다. 그럼에도 중요한 지점은 attribution이다. NVIDIA는 Qwen3-VL benchmark 제출에 vLLM을 썼다고 명시했고, 다른 신규 benchmark는 TensorRT-LLM VisualGen 같은 별도 도구를 사용했다고 구분했다.

이 차이는 open-source serving ecosystem에 의미가 있다. MLPerf는 여전히 operator와 model-serving 팀이 강하게 의식하는 benchmark이고, vLLM이 첫 multimodal track의 일부가 됐다는 것은 프로젝트의 역할이 text-only serving을 넘어 image-heavy inference까지 넓어지고 있음을 뜻한다. 특정 stack이 모든 deployment에서 최고라는 증거는 아니지만, top-tier multimodal benchmark의 중심부에 open-source framework가 들어왔다는 사실 자체가 신호다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.