#blackwell

AI X/Twitter 4d ago 1 min read

Blackwell Ultra, DeepSeek-V3 학습서 GPU당 1,648 TFLOPs

AI 인프라 경쟁은 모델 크기만큼 학습 처리량 숫자로 움직인다. NVIDIA는 Blackwell Ultra가 DeepSeek-V3 671B 사전학습에서 GPU당 1,648 TFLOPs를 기록해 이전 세대 대비 약 3배 성능을 냈다고 밝혔다.

#nvidia #blackwell #deepseek-v3

LLM Reddit Apr 30, 2026 1 min read

Qwen3.6 27B를 16GB GPU 두 장으로 204k까지, LocalLLaMA가 붙은 이유

LocalLLaMA가 이 글에 반응한 이유는 홍보 문구가 아니라 숫자였다. RTX 5060 Ti 16GB 두 장으로 Qwen3.6 27B를 약 60 tok/s, 204k 컨텍스트까지 밀어본 실측값이 나왔다.

#qwen #local-llm #vllm

LLM Reddit Apr 10, 2026 2 min read

LocalLLaMA 화제: 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B 198 tok/s 검증

LocalLLaMA에서 주목받은 글은 SGLang b12x+NEXTN, PCIe switch topology, 공개 raw benchmark JSON을 바탕으로 듀얼 RTX PRO 6000 Blackwell에서 Qwen3.5-122B NVFP4가 약 198 tok/s를 기록했다고 공유했다.

#qwen #blackwell #inference

LLM X/Twitter Apr 10, 2026 1 min read

vLLM, 첫 MLPerf vision-language benchmark 제출 사례에 이름 올리다

vLLM은 NVIDIA가 Qwen3-VL 기반 첫 MLPerf vision-language benchmark 제출에 자사 framework를 사용했다고 밝혔다. 함께 링크된 NVIDIA blog는 이 결과를 Blackwell Ultra 성능 강화 흐름 속에 배치하며 일부 workload에서 최대 2.7배 throughput과 60% 이상 token cost 절감을 주장한다.

#vllm #mlperf #benchmark

AI X/Twitter Apr 10, 2026 1 min read

PyTorch, Blackwell용 Diffusers·TorchAO quantization으로 diffusion inference 가속 제시

PyTorch는 2026년 4월 8일 X에서 Diffusers와 TorchAO 기반 MXFP8/NVFP4 quantization이 NVIDIA B200에서 diffusion latency를 줄일 수 있다고 밝혔다. 동반 blog는 selective quantization과 regional compilation을 현실적인 latency-memory 최적화 조합으로 제시한다.

#pytorch #torchao #blackwell

LLM X/Twitter Apr 8, 2026 1 min read

Cursor, Blackwell용 warp decode 공개… MoE inference 1.84배 가속 주장

Cursor는 2026년 4월 6일 X에서 NVIDIA Blackwell GPUs용 MoE token generation path를 다시 설계했다고 밝혔다. 함께 공개한 engineering post에서 회사는 "warp decode"가 inference throughput을 1.84배 높이고 outputs를 FP32 reference에 1.4배 더 가깝게 만든다고 주장했다.

#cursor #moe #inference

LLM Mar 30, 2026 1 min read

NVIDIA, Dynamo 1.0으로 AI factory inference OS 상용 단계 진입

NVIDIA는 2026년 3월 16일 Dynamo 1.0을 공개하며 generative·agentic inference용 open-source 운영 계층을 본격 상용 단계로 끌어올렸다. 핵심은 Blackwell 성능 증폭, token cost 절감, open-source framework 통합을 한 번에 묶었다는 점이다.

#nvidia #dynamo #inference

LLM Reddit Mar 24, 2026 1 min read

LocalLLaMA가 짚은 FlashAttention-4, Blackwell 이득과 일반 GPU 사용자의 한계

LocalLLaMA의 기술 토론은 FlashAttention-4 논문을 실제 배포 관점으로 풀어내며, Blackwell에서의 큰 성능 향상과 Python 기반 kernel 개발 속도 개선, 그리고 A100·consumer GPU 사용자가 당장 누리기 어려운 현실을 함께 짚었다.

#flashattention #inference #gpu

Sciences Mar 21, 2026 1 min read

NVIDIA와 Oracle, DOE 최대 AI 슈퍼컴퓨터로 과학 연구 가속

NVIDIA와 Oracle은 2026년 3월 16일 Argonne National Laboratory에 미국 Department of Energy(DOE) 최대 규모의 AI 슈퍼컴퓨터를 구축하겠다고 밝혔다. Solstice와 Equinox는 합산 110,000개의 Blackwell GPU와 2,200 exaflops의 AI 성능을 목표로 한다.

#nvidia #oracle #doe

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA, GPU kernel 최적화를 hardware 한계 기준으로 재는 SOL-ExecBench 공개

NVIDIA는 2026년 3월 20일 실제 GPU kernel workload를 대상으로 CUDA·PyTorch 최적화 코드를 NVIDIA B200 기반 Speed-of-Light 한계와 비교하는 SOL-ExecBench를 발표했다. 이번 공개에는 124개 AI 모델에서 추출한 235개 kernel optimization 문제가 BF16, FP8, NVFP4 workload와 함께 포함됐다.

#nvidia #cuda #benchmarking

AI X/Twitter Mar 17, 2026 2 min read

NVIDIA, Dynamo 1.0를 AI factories용 inference OS로 production 단계에 투입

NVIDIA는 2026년 3월 16일 Dynamo 1.0이 generative·agentic inference at scale용 open source software로 production 단계에 들어간다고 밝혔다. 회사는 이 스택이 Blackwell inference 성능을 최대 7배 높일 수 있고, 주요 cloud provider와 inference platform, AI-native 회사 전반에서 이미 지원되고 있다고 설명한다.

#nvidia #dynamo #inference

LLM Reddit Mar 16, 2026 2 min read

LocalLLaMA 벤치마크: RTX PRO 6000 SM120의 병목은 깨진 CUTLASS NVFP4 MoE 커널

2026년 3월 12일 LocalLLaMA 게시글은 4x RTX PRO 6000 Blackwell 환경에서 Qwen3.5-397B NVFP4의 지속 decode 최고값이 Marlin 기준 50.5 tok/s라고 주장했다. 이유는 SM120에서 CUTLASS grouped GEMM 경로가 실패하거나 느린 fallback으로 떨어지기 때문이라는 설명이다.

#qwen #blackwell #vllm