LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.
#blackwell
RSS FeedLocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.
vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.
PyTorch는 2026년 4월 8일 X에서 Diffusers와 TorchAO 기반 MXFP8/NVFP4 quantization이 NVIDIA B200에서 diffusion latency를 줄일 수 있다고 밝혔다. 동반 blog는 selective quantization과 regional compilation을 현실적인 latency-memory 최적화 조합으로 제시한다.
Cursor는 2026년 4월 6일 X에서 NVIDIA Blackwell GPUs용 MoE token generation path를 다시 설계했다고 밝혔다. 함께 공개한 engineering post에서 회사는 "warp decode"가 inference throughput을 1.84배 높이고 outputs를 FP32 reference에 1.4배 더 가깝게 만든다고 주장했다.
NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.
LocalLLaMA의 기술 토론은 FlashAttention-4 논문을 실제 배포 관점으로 풀어내며, Blackwell에서의 큰 성능 향상과 Python 기반 kernel 개발 속도 개선, 그리고 A100·consumer GPU 사용자가 당장 누리기 어려운 현실을 함께 짚었다.
NVIDIA와 Oracle은 2026년 3월 16일 Argonne National Laboratory에 미국 Department of Energy(DOE) 최대 규모의 AI 슈퍼컴퓨터를 구축하겠다고 밝혔다. Solstice와 Equinox는 합산 110,000개의 Blackwell GPU와 2,200 exaflops의 AI 성능을 목표로 한다.
NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.
NVIDIA는 2026년 3월 16일 Dynamo 1.0이 generative·agentic inference at scale용 open source software로 production 단계에 들어간다고 밝혔다. 회사는 이 스택이 Blackwell inference 성능을 최대 7배 높일 수 있고, 주요 cloud provider와 inference platform, AI-native 회사 전반에서 이미 지원되고 있다고 설명한다.
2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.
2026년 3월 14일 LocalLLaMA 글은 SM120 Blackwell 워크스테이션용 CUTLASS·FlashInfer 패치를 소개하며, Qwen3.5-397B NVFP4 추론 속도 개선과 FlashInfer PR #2786을 함께 제시했다.