#linear-attention

LLM X/Twitter Apr 30, 2026 1 min read

Qwen FlashQLA 공개… 선형 attention 커널 전방 2~3배·역전파 2배 가속

중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.

#qwen #linear-attention #kernels

LLM Reddit Apr 29, 2026 1 min read

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.

#qwen #flashqla #linear-attention