AI X/Twitter Apr 10, 2026 1 min read
PyTorch는 2026년 4월 8일 X에서 Diffusers와 TorchAO 기반 MXFP8/NVFP4 quantization이 NVIDIA B200에서 diffusion latency를 줄일 수 있다고 밝혔다. 동반 blog는 selective quantization과 regional compilation을 현실적인 latency-memory 최적화 조합으로 제시한다.
PyTorch는 2026년 4월 8일 X에서 Diffusers와 TorchAO 기반 MXFP8/NVFP4 quantization이 NVIDIA B200에서 diffusion latency를 줄일 수 있다고 밝혔다. 동반 blog는 selective quantization과 regional compilation을 현실적인 latency-memory 최적화 조합으로 제시한다.