Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개
Original: Introducing FlashQLA: high-performance linear attention kernels built on TileLang. View original →
Alibaba Qwen의 4월 29일 X 글이 눈에 띄는 이유는 모델 출시가 아니라 숫자가 붙은 인프라 주장이라는 점이다. 원문 트윗에서 팀은 TileLang 기반 FlashQLA가 선형 어텐션 커널에서 “2–3× forward speedup”, “2× backward speedup”을 낸다고 적었다. 이 수치가 외부 재현까지 버티면 의미는 작지 않다. 긴 컨텍스트 에이전트나 엣지 측 추론의 비용 구조를 모델 교체 없이 바로 눌러버릴 수 있기 때문이다.
@Alibaba_Qwen 계정은 보통 Qwen 계열 모델 출시와 저수준 추론·학습 최적화를 번갈아 내놓는다. 이번 글은 블로그와 함께 새로 공개한 FlashQLA 저장소로 연결된다. GitHub README를 보면 FlashQLA는 NVIDIA Hopper용 GDN Chunked Prefill 선형 어텐션 커널 라이브러리다. 특히 프리트레이닝과 엣지 측 agentic inference에서 이득이 크다고 적었다. 저장소는 4월 24일 생성됐고, 확인 시점 기준으로 별 261개를 모았으며 4월 29일에도 업데이트가 이어졌다. 요구 사양도 분명하다. SM90 이상, CUDA 12.8 이상, PyTorch 2.8 이상이다. 범용 호환성보다 최신 운영 장비를 겨냥한 작업이라는 뜻이다.
기술 포인트도 마케팅 문구로만 밀지 않았다. Qwen은 성능 상승 근거를 세 갈래로 적어 놓았다. 게이트 기반 intra-card context parallelism, Tensor Core·CUDA Core·SFU 부담을 줄이는 대수적 재구성, 그리고 역전파 효율까지 고려한 warp-specialized fused kernel이다. 더 중요한 부분은 단점도 같이 적었다는 점이다. 완전 단일 커널이 아니라 분리 커널 구조를 택했기 때문에 큰 배치에서는 메모리 I/O 부담이 늘 수 있다고 밝혔다. 대신 작은 모델, 긴 컨텍스트, 텐서 병렬 환경에서는 실제 체감 성능이 더 좋다고 설명한다. 이런 단서가 붙으면 벤치마크 숫자는 오히려 더 믿을 만해진다.
이제 볼 것은 외부 검증이다. 저장소에는 FLA Triton, FlashInfer 기준과 비교한 벤치마크가 들어 있지만, 진짜 시험대는 다른 팀의 Hopper 클러스터에서 같은 상승폭이 반복되는지다. 또 TileLang, FlashInfer, Flash Linear Attention 생태계로 아이디어가 흘러들어갈지도 봐야 한다. 거기까지 이어지면 FlashQLA는 소형 모델 하나보다 더 큰 뉴스가 된다. 많은 모델의 학습·서빙 비용을 한 번에 깎는 층이 되기 때문이다. 원문 트윗은 여기에서 볼 수 있다.
Related Articles
최상단 댓글은 CP 밈으로 바로 달려갔지만, 글이 오래 붙은 이유는 따로 있었다. GDN chunked prefill에서 forward 2~3배, backward 2배라는 구체적 수치가 long-context와 엣지 추론 얘기로 곧장 이어졌기 때문이다.
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.
27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.
Comments (0)
No comments yet. Be the first to comment!