QwenのFlashQLA、Hopper向け線形注意カーネル最大3倍高速化の設計公開

Original: Introducing FlashQLA: high-performance linear attention kernels built on TileLang. View original →

Read in other languages: 한국어English
LLM Apr 29, 2026 By Insights AI 1 min read Source

Alibaba Qwenの4月29日のX投稿が面白いのは、モデル公開ではなく、数字付きの基盤改善だからだ。元の投稿でチームは、TileLangベースのFlashQLAが線形注意カーネルで“2–3× forward speedup”と“2× backward speedup”を出すと書いた。もし外部検証でも持つなら、長文脈エージェントや端末側推論の採算を、モデル交換なしで押し下げる話になる。

@Alibaba_Qwenは普段、Qwen本体の公開と、その周辺にある推論・学習基盤の改善を交互に流すことが多い。今回の投稿はブログに加えて、新しく公開されたFlashQLAリポジトリへつながる。READMEによれば、FlashQLAはNVIDIA Hopper向けGDN Chunked Prefillの線形注意カーネルライブラリで、特に事前学習とedge-sideのagentic inferenceで効くという。リポジトリは4月24日に作られ、確認時点で261スター、4月29日にも更新が入っていた。要求環境はSM90以上、CUDA 12.8以上、PyTorch 2.8以上。つまり汎用互換ではなく、最新世代の本番GPUを真っすぐ狙った実装だ。

技術面も、魔法の一手だけで押していない。Qwenが前に出しているのは三つある。ゲート駆動のintra-card context parallelism、Tensor Core・CUDA Core・SFUの負荷を落とす代数的な組み替え、そして逆伝播効率まで含めて調整したwarp-specialized fused kernelだ。さらに、巨大な一枚岩カーネルではなく分割カーネルを選んだため、大きなバッチではメモリI/Oの不利が出る可能性まで明記している。その代わり、小さめのモデル、長い文脈、TP構成では実運用に近い性能が伸びると説明する。この但し書きがあるぶん、数字だけの宣伝より信用しやすい。

次に見るべきは再現性だ。リポジトリにはFLA TritonやFlashInferとの比較ベンチが入っているが、本番の焦点は他社のHopper環境でも同じ伸びが出るかどうかだ。もう一つは、この実装の考え方がTileLang、FlashInfer、Flash Linear Attentionの周辺へどこまで波及するかである。そこまで進めば、FlashQLAは小粒なモデル更新より大きい。複数のモデルの学習コストと配信コストを同時に下げる層になり得るからだ。元の投稿はこちら

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.