LocalLLaMAが注目したFlashAttention-4、Blackwellの伸びと一般GPUユーザーの限界
Original: FlashAttention-4: 1613 TFLOPs/s, 2.7x faster than Triton, written in Python. What it means for inference. View original →
2026年3月24日に投稿されたLocalLLaMAの議論は、FlashAttention-4を再びinference performanceの中心話題に押し戻した。スレッドは132 upvotes、39 commentsを集め、論文の派手なbenchmark数字を「実際に今、誰が恩恵を受けるのか」という運用目線へ落とし込んだ点で評価された。
FlashAttention-4論文の主張は、Blackwell世代ではattentionのボトルネック構造そのものが変わったということだ。tensor core throughputは大きく伸びる一方、shared-memory bandwidthやexponential unitsは同じようには伸びないため、従来kernelの単純移植では足りない。著者らはB200のBF16 attentionで最大1,613 TFLOPs/s、約71% utilization、cuDNN 9.13比で最大1.3x、Triton比で2.7xの高速化を報告する。手法としては、asynchronous pipeline再設計、conditional softmax rescaling、software-emulated exponential、tensor memory、2-CTA MMAを組み合わせる。さらにPython埋め込みのCuTe-DSLで実装し、compile timeを従来のC++ template方式より20-30x短縮した点も重要だ。
- Reddit投稿では、vLLM 0.17.0がB200上でFA-4を自動統合すると整理されている。
- PyTorch FlexAttentionにもFA-4 backendが入り、GQA、MQA、sliding-window attention対応が強調された。
- 一方で最大の伸びはHopperとBlackwell向けで、A100やconsumer GPUでは同じ恩恵を得にくい。
この最後の点がLocalLLaMAの空気をよく表している。コミュニティは技術方向に強く反応しているが、すぐに自分の環境へ適用できる人は限られる。それでも、non-matmul workを減らすアルゴリズム発想と、より速いkernel iterationは、今後のinference stack全体に影響する可能性が高い。
原典: FlashAttention-4 arXiv paper。コミュニティ議論: LocalLLaMA.
Related Articles
r/LocalLLaMAで共有されたFlashAttention-4は、B200 BF16で最大1605 TFLOPs/sを報告し、Blackwell世代のメモリ/SFU制約を前提にした新しいattention最適化を示した。
NVIDIAはMarch 16, 2026のGTCで、Dynamo 1.0をgenerative AIとagentic AI向けのproduction-grade open source inference stackとして発表した。Blackwell GPUではinference performanceを最大7x改善できると説明している。
Cloudflareは2026年3月20日、Kimi K2.5をWorkers AIに載せ、Cloudflare Developer Platform上でend-to-end agentを構築・運用できると発表した。公式ブログでは256k context、multi-turn tool calling、vision inputs、structured outputsに加え、1日7B tokensを処理する内部security review agentで77%のコスト削減を示している。
Comments (0)
No comments yet. Be the first to comment!