LLM X/Twitter Apr 30, 2026 1 min read
중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.
중요한 점은 장문맥과 edge-side agent가 말만 그럴듯한지, 실제로 돌릴 만한지의 갈림길이 결국 커널 최적화에 있다는 데 있다. Qwen는 FlashQLA가 NVIDIA Hopper에서 FLA Triton 대비 전방 2~3배, 역전파 2배 속도를 냈다고 적었다.
최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.