LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。
#blackwell
RSS FeedvLLMは、NVIDIAがQwen3-VLベースの初のMLPerf vision-language benchmark提出で同frameworkを使ったと説明した。リンク先のNVIDIA blogは、この結果をBlackwell Ultra全体の性能強化の流れに位置づけ、一部workloadで最大2.7倍のthroughputと60%以上のtoken cost削減を主張している。
PyTorchは2026年4月8日のXで、DiffusersとTorchAOによるMXFP8/NVFP4 quantizationがNVIDIA B200上のdiffusion latencyを下げられると説明した。併載blogはselective quantizationとregional compilationを実務向けのlatency-memory最適化レシピとして位置づけている。
Cursorは2026年4月6日のXで、NVIDIA Blackwell GPUs向けにMoE modelのtoken generation pathを作り直したと述べた。あわせて公開したengineering postでは、「warp decode」によりthroughputが1.84倍になり、outputsがFP32 referenceに1.4倍近づくと主張している。
NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。
LocalLLaMAの技術スレッドはFlashAttention-4論文を実運用目線で整理し、Blackwellでの大幅な性能向上、Pythonベースkernel開発の高速化、そしてA100やconsumer GPUユーザーが今すぐ恩恵を受けにくい現実を示した。
NVIDIAとOracleは2026年3月16日、Argonne National Laboratoryに米Department of Energy(DOE)最大規模のAIスーパーコンピューターを構築すると発表した。SolsticeとEquinoxは合計110,000基のBlackwell GPUと2,200 exaflopsのAI性能を目標にしている。
NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。
NVIDIAはMarch 16, 2026のGTCで、Dynamo 1.0をgenerative AIとagentic AI向けのproduction-grade open source inference stackとして発表した。Blackwell GPUではinference performanceを最大7x改善できると説明している。
NVIDIAは2026年3月16日、Dynamo 1.0が generative・agentic inference at scale 向け open source software として production 段階に入ると発表した。NVIDIAはこのスタックが Blackwell inference 性能を最大7倍引き上げ、主要 cloud provider、inference platform、AI-native 企業群で既に支援されていると説明している。
2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。
2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。