LLM Reddit 4d ago 1 min read
速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。
速いkernelでも、実際のtraining分布では静かに壊れる。Redditでは、verifierだけではoptimizerやdataset依存の失敗を拾えない点が議論された。
重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。
小さな新モデルより、下回りのカーネル最適化がコスト構造を動かす場面は多い。Qwenは今回のX投稿で、Hopper向け線形注意で順伝播2〜3倍、逆伝播2倍の高速化を打ち出し、コードも同時にGitHubへ置いた。
LocalLLaMAの最初の反応はCPネタだったが、スレッドが残った理由は別にある。GDN chunked prefillでforward 2〜3倍、backward 2倍という具体的な数字が出ていて、long-contextとedge-sideのagentic inferenceに話が直結していたからだ。
Hugging Faceは最適化GPUコードをHub-native artifactとして扱い、PyTorch運用で最も厄介な配布工程を薄くしようとしている。Clement Delangueによれば、新しいKernelsフローはGPU、PyTorchビルド、OSに合わせたprecompiled binaryを配り、PyTorch baseline比で1.7倍から2.5倍の高速化を狙う。