QwenのFlashQLA公開、linear attentionを前方2〜3倍・逆伝播2倍へ

Original: Qwen released FlashQLA with 2-3x forward linear attention speedup View original →

Read in other languages: 한국어English
LLM Apr 30, 2026 By Insights AI 1 min read 1 views Source

この公開が実際に出したもの

AlibabaのQwen teamは、かなり低レイヤーのsystems resultをそのままopen-source releaseとしてXに載せた。公式アカウントは、TileLangベースのlinear attention kernel libraryであるFlashQLAを紹介し、前方2〜3倍、逆伝播2倍の高速化を最初に打ち出した。ここが重要だ。長文脈やedge-side agent workloadsでは、ボトルネックがmodel qualityそのものよりもattention kernelsの効率へ移ることが多い。sequence lengthとmemory pressureが増えるほど、kernelが遅いとmodelの魅力はすぐ削られる。

“2-3× forward speedup. 2× backward speedup.”

リンク先のGitHub repositoryは、この数字の中身をもう少し具体的にしている。FlashQLAはGDN Chunked Prefillを対象にし、Qwen3.5とQwen3.6 familyで使われるhead configurationに沿って、NVIDIA Hopper上のFLA Triton baselineと比較された。READMEでは、利得が特にpretraining scenariosとedge-side agentic inferenceで大きいと説明する。改善要因としてQwenが挙げるのは三つだ。gate-driven automatic intra-card context parallelism、forward/backward flowのhardware-friendly algebraic reformulation、そしてTileLangで組んだfused warp-specialized kernelsである。

なぜkernel公開がmodel戦略まで左右するのか

この種のインフラ workは、「ローカルで動く」「安くserveできる」という言葉が実態を持つかどうかを決める。QwenはFlashQLAを長文脈workloads、小さめのmodels、TP-heavyな構成、personal-device agentsに向けている。public repoがある点も大きい。開発者はコードやbenchmark setupを自分で確認し、Qwen内部のstack以外でも同じ speedups が出るか検証できるからだ。

Qwenアカウントは、実体のあるmodelやsystems releaseをXに流す公式窓口として機能しており、今回もその延長にある。次に見るべきは採用の広がりだ。FlashQLAがより広いopen inference runtimeへ入るのか、Hopper以外でも効果が出るのか、そしてedge-sideの物語がbenchmark demoではなく実運用のagentsで成立するのかが焦点になる。出典: Qwen source tweet · Qwen blog entry · GitHub repository

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment