#kernels

LLM Reddit May 28, 2026 1 min read

AI生成CUDA kernel、benchmark通過後にtrainingを壊したbf16の罠

速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。

LLM X/Twitter Apr 30, 2026 1 min read

QwenのFlashQLA公開、linear attentionを前方2〜3倍・逆伝播2倍へ

重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。

#qwen #linear-attention #kernels

LLM Reddit Apr 29, 2026 1 min read

LocalLLaMAがFlashQLAで盛り上がった理由、ネタより数字

LocalLLaMAの最初の反応はCPネタだったが、スレッドが残った理由は別にある。GDN chunked prefillでforward 2〜3倍、backward 2倍という具体的な数字が出ていて、long-contextとedge-sideのagentic inferenceに話が直結していたからだ。

#qwen #flashqla #linear-attention

AI Apr 14, 2026 1 min read

Hugging Face、HubでGPU kernel配布を簡略化し最大2.5倍高速化

Hugging Faceは最適化GPUコードをHub-native artifactとして扱い、PyTorch運用で最も厄介な配布工程を薄くしようとしている。Clement Delangueによれば、新しいKernelsフローはGPU、PyTorchビルド、OSに合わせたprecompiled binaryを配り、PyTorch baseline比で1.7倍から2.5倍の高速化を狙う。

#hugging-face #kernels #pytorch