PyTorch, Blackwell용 Diffusers·TorchAO quantization으로 diffusion inference 가속 제시
Original: Improve latency up to 1.68x with NVFP4 and MXFP8 using Diffusers and TorchAO on Blackwell across a suite of different models 🔥. Squeeze out maximum performance with recipes involving selective quantization and regional compilation. 🔗 Read our latest blog from @vkuzo (@Meta) and @RisingSayak (@HuggingFace): https://pytorch.org/blog/faster-diffusion-on-blackwell-mxfp8-and-nvfp4-with-diffusers-and-torchao/ #PyTorch #TorchAO #MXFP8 #NVFP4 #OpenSourceAI View original →
PyTorch는 2026년 4월 8일 X post에서 Diffusers와 TorchAO를 이용해 NVIDIA B200 위에서 Flux.1-Dev, QwenImage, LTX-2의 end-to-end inference를 가속하는 새 blog를 소개했다. PyTorch 설명에 따르면 MXFP8은 최대 1.26배, NVFP4는 최대 1.68배의 speedup을 보였고, 일부 설정에서는 peak memory도 함께 낮췄다. 수치 자체도 중요하지만, image와 video generation workload에서 quantization이 실제 운영 가능한 recipe로 정리되기 시작했다는 점이 더 눈에 띈다.
핵심은 quantization 이름보다 조합 방식이다. 글은 selective quantization, torch.compile(fullgraph=True) 기반 regional compilation, CUDA Graphs를 함께 써서 latency를 낮췄고, bfloat16 baseline 대비 LPIPS를 측정해 quality drift를 관리했다고 설명한다. 또한 QwenImage가 Flux.1-Dev보다 quantization에 더 민감하다고 명시해, 모든 model에 동일한 low-precision 설정을 밀어 넣기 어렵다는 현실도 인정했다. 이는 Blackwell 최적화가 단순한 precision 전환이 아니라 model별 accuracy budget 관리 문제라는 뜻이기도 하다.
실무 관점에서 이번 포스트는 hardware 세대 교체보다 software stack tuning의 중요성을 더 강하게 보여준다. PyTorch는 NVFP4 kernel 개선을 위한 TorchAO 측 PR도 언급했는데, 이는 open-source inference stack이 아직 빠르게 진화하고 있음을 시사한다. diffusion workload를 운영하는 팀에게 이번 발표의 가치는 benchmark headline보다, 재현 가능한 tuning recipe와 accuracy trade-off 정보를 함께 제공했다는 데 있다.
Related Articles
PyTorch는 2026년 4월 9일 X에서 Safetensors와 Helion이 PyTorch Foundation의 foundation-hosted project로 합류했다고 밝혔다. 이번 조정으로 foundation은 model distribution safety와 저수준 kernel tooling에 대한 역할을 더 크게 갖게 된다.
NVIDIA는 2026년 3월 16일 Dynamo 1.0이 generative·agentic inference at scale용 open source software로 production 단계에 들어간다고 밝혔다. 회사는 이 스택이 Blackwell inference 성능을 최대 7배 높일 수 있고, 주요 cloud provider와 inference platform, AI-native 회사 전반에서 이미 지원되고 있다고 설명한다.
2026년 3월 15일 r/MachineLearning에서는 GraphZero v0.2 소개 글이 334 points와 27 comments를 모았다. post와 GitHub README는 SSD mmap, custom binary format, nanobind bridge를 이용해 100M+ node graph를 consumer hardware에서 다루는 방식을 설명한다.
Comments (0)
No comments yet. Be the first to comment!