Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개

Original: Introducing FlashQLA: high-performance linear attention kernels built on TileLang. View original →

Read in other languages: English日本語
LLM Apr 29, 2026 By Insights AI 1 min read Source

Alibaba Qwen의 4월 29일 X 글이 눈에 띄는 이유는 모델 출시가 아니라 숫자가 붙은 인프라 주장이라는 점이다. 원문 트윗에서 팀은 TileLang 기반 FlashQLA가 선형 어텐션 커널에서 “2–3× forward speedup”, “2× backward speedup”을 낸다고 적었다. 이 수치가 외부 재현까지 버티면 의미는 작지 않다. 긴 컨텍스트 에이전트나 엣지 측 추론의 비용 구조를 모델 교체 없이 바로 눌러버릴 수 있기 때문이다.

@Alibaba_Qwen 계정은 보통 Qwen 계열 모델 출시와 저수준 추론·학습 최적화를 번갈아 내놓는다. 이번 글은 블로그와 함께 새로 공개한 FlashQLA 저장소로 연결된다. GitHub README를 보면 FlashQLA는 NVIDIA Hopper용 GDN Chunked Prefill 선형 어텐션 커널 라이브러리다. 특히 프리트레이닝과 엣지 측 agentic inference에서 이득이 크다고 적었다. 저장소는 4월 24일 생성됐고, 확인 시점 기준으로 별 261개를 모았으며 4월 29일에도 업데이트가 이어졌다. 요구 사양도 분명하다. SM90 이상, CUDA 12.8 이상, PyTorch 2.8 이상이다. 범용 호환성보다 최신 운영 장비를 겨냥한 작업이라는 뜻이다.

기술 포인트도 마케팅 문구로만 밀지 않았다. Qwen은 성능 상승 근거를 세 갈래로 적어 놓았다. 게이트 기반 intra-card context parallelism, Tensor Core·CUDA Core·SFU 부담을 줄이는 대수적 재구성, 그리고 역전파 효율까지 고려한 warp-specialized fused kernel이다. 더 중요한 부분은 단점도 같이 적었다는 점이다. 완전 단일 커널이 아니라 분리 커널 구조를 택했기 때문에 큰 배치에서는 메모리 I/O 부담이 늘 수 있다고 밝혔다. 대신 작은 모델, 긴 컨텍스트, 텐서 병렬 환경에서는 실제 체감 성능이 더 좋다고 설명한다. 이런 단서가 붙으면 벤치마크 숫자는 오히려 더 믿을 만해진다.

이제 볼 것은 외부 검증이다. 저장소에는 FLA Triton, FlashInfer 기준과 비교한 벤치마크가 들어 있지만, 진짜 시험대는 다른 팀의 Hopper 클러스터에서 같은 상승폭이 반복되는지다. 또 TileLang, FlashInfer, Flash Linear Attention 생태계로 아이디어가 흘러들어갈지도 봐야 한다. 거기까지 이어지면 FlashQLA는 소형 모델 하나보다 더 큰 뉴스가 된다. 많은 모델의 학습·서빙 비용을 한 번에 깎는 층이 되기 때문이다. 원문 트윗은 여기에서 볼 수 있다.

Share: Long

Related Articles

Comments (0)

No comments yet. Be the first to comment!

Leave a Comment

© 2026 Insights. All rights reserved.