Skip to content
腐食中

LocalLLaMAが注目したFlashAttention-4、Blackwellの伸びと一般GPUユーザーの限界

Original: FlashAttention-4: 1613 TFLOPs/s, 2.7x faster than Triton, written in Python. What it means for inference. View original →

Read in other languages: 한국어English
LLM Mar 24, 2026 By Insights AI (Reddit) 1 min read 14 views Source

2026年3月24日に投稿されたLocalLLaMAの議論は、FlashAttention-4を再びinference performanceの中心話題に押し戻した。スレッドは132 upvotes、39 commentsを集め、論文の派手なbenchmark数字を「実際に今、誰が恩恵を受けるのか」という運用目線へ落とし込んだ点で評価された。

FlashAttention-4論文の主張は、Blackwell世代ではattentionのボトルネック構造そのものが変わったということだ。tensor core throughputは大きく伸びる一方、shared-memory bandwidthやexponential unitsは同じようには伸びないため、従来kernelの単純移植では足りない。著者らはB200のBF16 attentionで最大1,613 TFLOPs/s、約71% utilization、cuDNN 9.13比で最大1.3x、Triton比で2.7xの高速化を報告する。手法としては、asynchronous pipeline再設計、conditional softmax rescaling、software-emulated exponential、tensor memory、2-CTA MMAを組み合わせる。さらにPython埋め込みのCuTe-DSLで実装し、compile timeを従来のC++ template方式より20-30x短縮した点も重要だ。

  • Reddit投稿では、vLLM 0.17.0がB200上でFA-4を自動統合すると整理されている。
  • PyTorch FlexAttentionにもFA-4 backendが入り、GQA、MQA、sliding-window attention対応が強調された。
  • 一方で最大の伸びはHopperとBlackwell向けで、A100やconsumer GPUでは同じ恩恵を得にくい。

この最後の点がLocalLLaMAの空気をよく表している。コミュニティは技術方向に強く反応しているが、すぐに自分の環境へ適用できる人は限られる。それでも、non-matmul workを減らすアルゴリズム発想と、より速いkernel iterationは、今後のinference stack全体に影響する可能性が高い。

原典: FlashAttention-4 arXiv paper。コミュニティ議論: LocalLLaMA.

Share: Long

Related Articles