#blackwell

LLM Reddit Apr 10, 2026 1 min read

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

LocalLLaMAで注目された投稿は、SGLang b12x+NEXTN、PCIe switch topology、公開raw benchmark JSONを根拠に、デュアルRTX PRO 6000 Blackwell環境でQwen3.5-122B NVFP4が約198 tok/sに達したと共有した。

#qwen #blackwell #inference

LLM sources.twitter Apr 10, 2026 1 min read

vLLM、初のMLPerf vision-language benchmark提出事例に参加

vLLMは、NVIDIAがQwen3-VLベースの初のMLPerf vision-language benchmark提出で同frameworkを使ったと説明した。リンク先のNVIDIA blogは、この結果をBlackwell Ultra全体の性能強化の流れに位置づけ、一部workloadで最大2.7倍のthroughputと60%以上のtoken cost削減を主張している。

#vllm #mlperf #benchmark

AI sources.twitter Apr 10, 2026 1 min read

PyTorch、Blackwell向けDiffusers・TorchAO quantizationでdiffusion inference高速化を提示

PyTorchは2026年4月8日のXで、DiffusersとTorchAOによるMXFP8/NVFP4 quantizationがNVIDIA B200上のdiffusion latencyを下げられると説明した。併載blogはselective quantizationとregional compilationを実務向けのlatency-memory最適化レシピとして位置づけている。

#pytorch #torchao #blackwell

LLM sources.twitter Apr 8, 2026 1 min read

Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

Cursorは2026年4月6日のXで、NVIDIA Blackwell GPUs向けにMoE modelのtoken generation pathを作り直したと述べた。あわせて公開したengineering postでは、「warp decode」によりthroughputが1.84倍になり、outputsがFP32 referenceに1.4倍近づくと主張している。

#cursor #moe #inference

LLM Mar 30, 2026 1 min read

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

NVIDIAは2026年3月16日、generative/agentic inference向けopen-source基盤としてDynamo 1.0を発表した。Blackwell性能の引き上げ、token cost削減、主要framework統合を一体化した点が大きい。

#nvidia #dynamo #inference

LLM Reddit Mar 24, 2026 1 min read

LocalLLaMAが注目したFlashAttention-4、Blackwellの伸びと一般GPUユーザーの限界

LocalLLaMAの技術スレッドはFlashAttention-4論文を実運用目線で整理し、Blackwellでの大幅な性能向上、Pythonベースkernel開発の高速化、そしてA100やconsumer GPUユーザーが今すぐ恩恵を受けにくい現実を示した。

#flashattention #inference #gpu

Sciences Mar 21, 2026 1 min read

NVIDIAとOracle、DOE最大のAIスーパーコンピューターで科学研究を加速へ

NVIDIAとOracleは2026年3月16日、Argonne National Laboratoryに米Department of Energy(DOE)最大規模のAIスーパーコンピューターを構築すると発表した。SolsticeとEquinoxは合計110,000基のBlackwell GPUと2,200 exaflopsのAI性能を目標にしている。

#nvidia #oracle #doe

AI sources.twitter Mar 20, 2026 1 min read

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。

#nvidia #cuda #benchmarking

LLM Mar 19, 2026 1 min read

NVIDIA、Dynamo 1.0をproduction展開　AI factory向けinference operating systemを前面化

NVIDIAはMarch 16, 2026のGTCで、Dynamo 1.0をgenerative AIとagentic AI向けのproduction-grade open source inference stackとして発表した。Blackwell GPUではinference performanceを最大7x改善できると説明している。

#nvidia #dynamo #inference

AI sources.twitter Mar 17, 2026 1 min read

NVIDIA、Dynamo 1.0を AI factories 向け inference OS として production 展開

NVIDIAは2026年3月16日、Dynamo 1.0が generative・agentic inference at scale 向け open source software として production 段階に入ると発表した。NVIDIAはこのスタックが Blackwell inference 性能を最大7倍引き上げ、主要 cloud provider、inference platform、AI-native 企業群で既に支援されていると説明している。

#nvidia #dynamo #inference

LLM Reddit Mar 16, 2026 1 min read

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

2026年3月12日のLocalLLaMA投稿は、4x RTX PRO 6000 BlackwellでのQwen3.5-397B NVFP4持続decode最良値はMarlinで50.5 tok/sだと報告した。理由はSM120でCUTLASS grouped GEMMのネイティブ経路が崩れているため、という主張だ。

#qwen #blackwell #vllm

LLM Reddit Mar 15, 2026 1 min read

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

2026年3月14日のLocalLLaMA投稿は、SM120 Blackwellワークステーション向けCUTLASS・FlashInfer修正を紹介し、Qwen3.5-397B NVFP4推論高速化とFlashInfer PR #2786を結び付けた。

#qwen #blackwell #vllm

#blackwell

LocalLLaMAで話題: デュアルRTX PRO 6000 BlackwellでQwen3.5-122Bが198 tok/s

vLLM、初のMLPerf vision-language benchmark提出事例に参加

PyTorch、Blackwell向けDiffusers・TorchAO quantizationでdiffusion inference高速化を提示

Cursor、Blackwell向けwarp decodeを公開… MoE inference 1.84倍高速化を主張

NVIDIA、Dynamo 1.0をAI factory向けinference OSとして本番投入

LocalLLaMAが注目したFlashAttention-4、Blackwellの伸びと一般GPUユーザーの限界

NVIDIAとOracle、DOE最大のAIスーパーコンピューターで科学研究を加速へ

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

NVIDIA、Dynamo 1.0をproduction展開 AI factory向けinference operating systemを前面化

NVIDIA、Dynamo 1.0を AI factories 向け inference OS として production 展開

LocalLLaMA検証、RTX PRO 6000のSM120ではCUTLASS NVFP4 MoEカーネル不具合が律速要因

LocalLLaMA、K=64カーネル修正でBlackwellワークステーションのQwen3.5-397B推論改善を主張

NVIDIA、Dynamo 1.0をproduction展開　AI factory向けinference operating systemを前面化