#flashattention

LLM Reddit Mar 24, 2026 1 min read

LocalLLaMA가 짚은 FlashAttention-4, Blackwell 이득과 일반 GPU 사용자의 한계

LocalLLaMA의 기술 토론은 FlashAttention-4 논문을 실제 배포 관점으로 풀어내며, Blackwell에서의 큰 성능 향상과 Python 기반 kernel 개발 속도 개선, 그리고 A100·consumer GPU 사용자가 당장 누리기 어려운 현실을 함께 짚었다.

#flashattention #inference #gpu

LLM Reddit Mar 6, 2026 1 min read

FlashAttention-4, Blackwell 병목에 맞춘 overlap 중심 커널 설계 공개

r/LocalLLaMA에서 주목받은 FlashAttention-4는 B200 BF16에서 최대 1605 TFLOPs/s를 제시하며, Blackwell의 메모리·SFU 병목을 겨냥한 파이프라인 개선을 소개했다.

#flashattention #nvidia #blackwell