Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개

Alibaba Qwen의 4월 29일 X 글이 눈에 띄는 이유는 모델 출시가 아니라 숫자가 붙은 인프라 주장이라는 점이다. 원문 트윗에서 팀은 TileLang 기반 FlashQLA가 선형 어텐션 커널에서 “2–3× forward speedup”, “2× backward speedup”을 낸다고 적었다. 이 수치가 외부 재현까지 버티면 의미는 작지 않다. 긴 컨텍스트 에이전트나 엣지 측 추론의 비용 구조를 모델 교체 없이 바로 눌러버릴 수 있기 때문이다.

@Alibaba_Qwen 계정은 보통 Qwen 계열 모델 출시와 저수준 추론·학습 최적화를 번갈아 내놓는다. 이번 글은 블로그와 함께 새로 공개한 FlashQLA 저장소로 연결된다. GitHub README를 보면 FlashQLA는 NVIDIA Hopper용 GDN Chunked Prefill 선형 어텐션 커널 라이브러리다. 특히 프리트레이닝과 엣지 측 agentic inference에서 이득이 크다고 적었다. 저장소는 4월 24일 생성됐고, 확인 시점 기준으로 별 261개를 모았으며 4월 29일에도 업데이트가 이어졌다. 요구 사양도 분명하다. SM90 이상, CUDA 12.8 이상, PyTorch 2.8 이상이다. 범용 호환성보다 최신 운영 장비를 겨냥한 작업이라는 뜻이다.

기술 포인트도 마케팅 문구로만 밀지 않았다. Qwen은 성능 상승 근거를 세 갈래로 적어 놓았다. 게이트 기반 intra-card context parallelism, Tensor Core·CUDA Core·SFU 부담을 줄이는 대수적 재구성, 그리고 역전파 효율까지 고려한 warp-specialized fused kernel이다. 더 중요한 부분은 단점도 같이 적었다는 점이다. 완전 단일 커널이 아니라 분리 커널 구조를 택했기 때문에 큰 배치에서는 메모리 I/O 부담이 늘 수 있다고 밝혔다. 대신 작은 모델, 긴 컨텍스트, 텐서 병렬 환경에서는 실제 체감 성능이 더 좋다고 설명한다. 이런 단서가 붙으면 벤치마크 숫자는 오히려 더 믿을 만해진다.

이제 볼 것은 외부 검증이다. 저장소에는 FLA Triton, FlashInfer 기준과 비교한 벤치마크가 들어 있지만, 진짜 시험대는 다른 팀의 Hopper 클러스터에서 같은 상승폭이 반복되는지다. 또 TileLang, FlashInfer, Flash Linear Attention 생태계로 아이디어가 흘러들어갈지도 봐야 한다. 거기까지 이어지면 FlashQLA는 소형 모델 하나보다 더 큰 뉴스가 된다. 많은 모델의 학습·서빙 비용을 한 번에 깎는 층이 되기 때문이다. 원문 트윗은 여기에서 볼 수 있다.

Qwen FlashQLA, Hopper 선형 어텐션 지연 최대 3배 단축 수치와 설계 공개

Related Articles

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유

Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들

Comments (0)

Leave a Comment

Related Articles

LocalLLaMA가 FlashQLA에 반응한 이유, 밈보다 숫자

RTX 3090에서 거의 2배, LocalLLaMA가 Luce DFlash에 몰린 이유
LocalLLaMA는 이 글을 또 하나의 벤치마크 이미지로 넘기지 않았다. 단일 RTX 3090에서 Qwen3.6-27B 처리량을 평균 1.98배까지 끌어올렸고, 재학습 없이 긴 컨텍스트까지 버틴다는 점이 스레드의 열기를 만들었다.

Qwen3.6-27B가 Sonnet 급까지 왔나, LocalLLaMA가 바로 따진 기준들
27B 모델이 Sonnet 4.6과 비빈다는 주장에 LocalLLaMA가 크게 들썩였지만, 댓글은 곧바로 벤치마크 과최적화와 실제 로컬 구동 조건으로 옮겨갔다.