LocalLLaMA가 짚은 FlashAttention-4, Blackwell 이득과 일반 GPU 사용자의 한계
Original: FlashAttention-4: 1613 TFLOPs/s, 2.7x faster than Triton, written in Python. What it means for inference. View original →
2026년 3월 24일 올라온 LocalLLaMA 토론은 FlashAttention-4를 다시 inference performance 논의의 중심으로 끌어왔다. 이 글은 132 upvotes와 39 comments를 모았고, 논문의 화려한 benchmark 숫자를 “지금 실제로 누가 이득을 보느냐”라는 현실적인 질문으로 번역해 준 점에서 반응이 좋았다.
FlashAttention-4 논문은 Blackwell 세대에서 attention 병목 구조가 달라졌다고 본다. tensor core throughput은 더 빨리 늘었지만 shared-memory bandwidth와 exponential units는 같은 속도로 확장되지 않기 때문에, 기존 kernel을 단순 이식하는 것만으로는 부족하다는 설명이다. 저자들은 B200의 BF16 attention에서 최대 1,613 TFLOPs/s, 약 71% utilization, cuDNN 9.13 대비 최대 1.3x, Triton 대비 2.7x 향상을 제시했다. 이를 위해 asynchronous pipeline 재설계, conditional softmax rescaling, software-emulated exponential, tensor memory, 2-CTA MMA 같은 기법을 결합했다. 구현을 Python 기반 CuTe-DSL로 옮겨 compile time을 기존 C++ template 스타일보다 20-30x 줄였다는 점도 눈에 띈다.
- Reddit 작성자는 vLLM 0.17.0이 B200에서 FA-4를 자동 통합한다고 요약했다.
- PyTorch FlexAttention에도 FA-4 backend가 들어갔고, GQA, MQA, sliding-window attention 지원이 강조됐다.
- 다만 가장 큰 성능 이득은 Hopper와 Blackwell 중심이라 A100이나 consumer GPU 사용자는 즉시 체감하기 어렵다.
이 마지막 포인트가 LocalLLaMA 반응의 톤을 설명한다. 커뮤니티는 엔지니어링 방향성에는 크게 호응하지만, 실제로 당장 써 볼 수 있는 사람은 많지 않다. 그래도 non-matmul work를 줄이는 알고리즘 아이디어와 더 빠른 kernel iteration은 앞으로 다른 inference stack에도 영향을 줄 가능성이 크다.
원문: FlashAttention-4 arXiv paper. 커뮤니티 토론: LocalLLaMA.
Related Articles
r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.
NVIDIA는 March 16, 2026 GTC에서 Dynamo 1.0을 generative AI와 agentic AI를 위한 production-grade open source inference stack으로 발표했다. 회사는 Blackwell GPU 기준 inference 성능을 최대 7x까지 끌어올릴 수 있다고 설명했다.
2026년 3월 18일 LocalLLaMA에서 화제가 된 Mamba-3는 Together AI와 CMU, Princeton, Cartesia AI 연구진이 공개한 state space model 연구다. 설계 목표를 training speed보다 inference efficiency에 두고, 1.5B scale에서 Mamba-2와 Gated DeltaNet, Llama-3.2-1B 대비 prefill+decode latency 우위를 주장한다.
Comments (0)
No comments yet. Be the first to comment!