LLM X/Twitter Apr 10, 2026 1 min read
vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.