#cuda

RSSフィード

LLM Hacker News May 31, 2026 1 min read

Tiny-vLLM、C++とCUDAでLLM inferenceを作りながら学ぶ小さな実装

HNの反応はコードだけでなくREADMEに集まった。vLLMの考え方を、小さな実装と教材の流れに落とし込んでいる点が評価された。

#llm #cuda #inference

LLM Reddit May 28, 2026 1 min read

AI生成CUDA kernel、benchmark通過後にtrainingを壊したbf16の罠

速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。

#cuda #kernels #benchmarking

AI X/Twitter Apr 16, 2026 1 min read

Cursor agent、NVIDIA BlackwellのCUDA kernelを3週間で38%高速化

coding agentの検証が、アプリ生成からGPU kernel最適化へ踏み込んだ。CursorはNVIDIAとの実験で、235個のCUDA問題に対して3週間で38%のgeomean speedupを得たとしている。

#ai-agents #cuda #nvidia

AI Hacker News Apr 13, 2026 1 min read

Hacker Newsで浮上したAMDのROCm戦略: CUDAのmoatを崩すための“one step after another”

Hacker Newsのfront pageに上がったEE Times interviewは、AMDがROCm、Triton、OneROCm、open-sourceの運用でCUDA依存を段階的に削ろうとしていることを整理している。重要なのは派手な互換性宣言ではなく、vLLMやSGLangが自然に動くboringなsoftware完成度だ。

#rocm #cuda #amd

AI Reddit Apr 11, 2026 1 min read

Redditが指摘したRTX 5090のバッチFP32 workloadにおけるcuBLAS性能異常

MachineLearningコミュニティの投稿は、RTX 5090でcuBLASがbatched FP32 MatMulに非効率なkernelを選んでいる可能性を指摘する。重要なのは、単なる不満ではなく、再現可能なbenchmark表とprofiling情報を伴うdispatch問題の提起になっている点だ。

#cublas #rtx-5090 #cuda

AI Reddit Apr 11, 2026 1 min read

RTX 5090のcuBLAS FP32 dispatch経路に性能問題の可能性

r/MachineLearningの投稿とリンク先のbenchmark記事は、RTX 5090のbatched FP32 SGEMMが非効率なcuBLAS経路に入り、GPU計算資源を大きく余らせていると主張する。

#cuda #cublas #gpu

LLM Reddit Mar 22, 2026 1 min read

r/LocalLLaMA、ik_llama.cppでQwen 3.5のprompt ingestionが26倍高速と報告

r/LocalLLaMAの高シグナル benchmark 投稿は、Qwen 3.5 27Bをmainline llama.cppからik_llama.cppへ切り替えると、Blackwell RTX PRO 4000上でprompt evaluationが約43 tok/secから1,122 tok/secへ伸び、generationも7.5 tok/secから26 tok/secへ上がったと伝えた。

#llama.cpp #qwen #local-llm

AI X/Twitter Mar 20, 2026 1 min read

NVIDIA、GPU kernel最適化をhardware限界で測るSOL-ExecBenchを公開

NVIDIAは2026年3月20日、実際のGPU kernel workloadを対象にCUDA・PyTorch最適化コードをNVIDIA B200上のSpeed-of-Light限界と比較するSOL-ExecBenchを発表した。124件のAI modelから抽出した235件のkernel optimization問題をBF16、FP8、NVFP4 workload付きで収録している。

#nvidia #cuda #benchmarking

LLM Reddit Mar 16, 2026 1 min read

LocalLLaMAが押し上げたGreenBoost、RAMとNVMeでNVIDIA GPU memoryを拡張するLinux driver

LocalLLaMAで広がったGreenBoostは、limited vRAM問題を回避しようとするexperimentalなLinux kernel moduleだ。2026年3月14日のPhoronix記事によれば、このGPLv2 projectはkernel moduleとCUDA shimを組み合わせ、大きなallocationをon-card vRAMの外にあるpinned system RAMとNVMe tierへ逃がしつつ、CUDA applicationの修正なしにより大きなLLM workloadを走らせることを狙っている。

#nvidia #vram #cuda

LLM Reddit Mar 6, 2026 1 min read

CUDA Agent論文、Agentic RLでKernelBench改善を主張し話題化

r/singularityでByteDance SeedとTsinghua AIRによるCUDA Agentが注目された。torch.compile比で高いpass rateとspeedupを示し、GPU kernel最適化の自動化可能性を示唆している。

#cuda #agentic-rl #kernelbench

LLM Hacker News Feb 18, 2026 1 min read

HN注目: LLVM非依存でAMD GFX11バイナリを出力するC99 CUDAコンパイラ BarraCUDA

Hacker Newsで話題となったBarraCUDAは、CUDA `.cu`をLLVM依存なしでAMD GFX11向け`.hsaco`へ直接変換するオープンソースC99コンパイラとして紹介された。

#cuda #amd-gpu #compiler