LocalLLaMA가 짚은 FlashAttention-4, Blackwell 이득과 일반 GPU 사용자의 한계

2026년 3월 24일 올라온 LocalLLaMA 토론은 FlashAttention-4를 다시 inference performance 논의의 중심으로 끌어왔다. 이 글은 132 upvotes와 39 comments를 모았고, 논문의 화려한 benchmark 숫자를 “지금 실제로 누가 이득을 보느냐”라는 현실적인 질문으로 번역해 준 점에서 반응이 좋았다.

FlashAttention-4 논문은 Blackwell 세대에서 attention 병목 구조가 달라졌다고 본다. tensor core throughput은 더 빨리 늘었지만 shared-memory bandwidth와 exponential units는 같은 속도로 확장되지 않기 때문에, 기존 kernel을 단순 이식하는 것만으로는 부족하다는 설명이다. 저자들은 B200의 BF16 attention에서 최대 1,613 TFLOPs/s, 약 71% utilization, cuDNN 9.13 대비 최대 1.3x, Triton 대비 2.7x 향상을 제시했다. 이를 위해 asynchronous pipeline 재설계, conditional softmax rescaling, software-emulated exponential, tensor memory, 2-CTA MMA 같은 기법을 결합했다. 구현을 Python 기반 CuTe-DSL로 옮겨 compile time을 기존 C++ template 스타일보다 20-30x 줄였다는 점도 눈에 띈다.

Reddit 작성자는 vLLM 0.17.0이 B200에서 FA-4를 자동 통합한다고 요약했다.
PyTorch FlexAttention에도 FA-4 backend가 들어갔고, GQA, MQA, sliding-window attention 지원이 강조됐다.
다만 가장 큰 성능 이득은 Hopper와 Blackwell 중심이라 A100이나 consumer GPU 사용자는 즉시 체감하기 어렵다.

이 마지막 포인트가 LocalLLaMA 반응의 톤을 설명한다. 커뮤니티는 엔지니어링 방향성에는 크게 호응하지만, 실제로 당장 써 볼 수 있는 사람은 많지 않다. 그래도 non-matmul work를 줄이는 알고리즘 아이디어와 더 빠른 kernel iteration은 앞으로 다른 inference stack에도 영향을 줄 가능성이 크다.

원문: FlashAttention-4 arXiv paper. 커뮤니티 토론: LocalLLaMA.

LocalLLaMA가 짚은 FlashAttention-4, Blackwell 이득과 일반 GPU 사용자의 한계

Related Articles

FlashAttention-4, Blackwell 병목에 맞춘 overlap 중심 커널 설계 공개

GLM5.2 집에서 돌리기, LocalLLaMA가 본 진짜 비용은 GPU 숫자

NVIDIA ModelExpress, DeepSeek-V4 Pro 기동 시간을 8분에서 1분대로 단축