#linear-attention

LLM X/Twitter Apr 30, 2026 1 min read

QwenのFlashQLA公開、linear attentionを前方2〜3倍・逆伝播2倍へ

重要なのは、長文脈やedge-side agentを実際に回せるかどうかが結局kernel最適化で決まる場面が増えていることだ。QwenはFlashQLAがNVIDIA HopperでFLA Triton比の前方2〜3倍、逆伝播2倍を出したとしている。

#qwen #linear-attention #kernels

LLM Reddit Apr 29, 2026 1 min read

LocalLLaMAがFlashQLAで盛り上がった理由、ネタより数字

LocalLLaMAの最初の反応はCPネタだったが、スレッドが残った理由は別にある。GDN chunked prefillでforward 2〜3倍、backward 2倍という具体的な数字が出ていて、long-contextとedge-sideのagentic inferenceに話が直結していたからだ。

#qwen #flashqla #linear-attention